← Thomas Winkler

Mein AI-Setup im Überblick

11.05.2026 · setup

Willkommen auf der Übersichtsseite meines persönlichen AI-Setups. Dieser Beitrag dient als zentraler Ankerpunkt, um alle weiteren Artikel, Experimente und Updates in meinem Blog besser in den Gesamtkontext einordnen zu können. Hier dokumentiere ich den aktuellen Stand meiner Systemarchitektur, die mich täglich in meiner Arbeit unterstützt.

Meine Philosophie

Ich baue ein persönliches AI-System, das mich im Produkt-, Design- und Innovationsmanagement unterstützt. Von Anfang an war mir wichtig: Keine Insellösungen, sondern ein vernetztes Ökosystem aus spezialisierten KI-Agenten, automatisierten Workflows und einer zentralen Wissensdatenbank. Alles läuft auf meinem eigenen Server. Das bedeutet für mich volle Kontrolle über meine Daten und Prozesse, maximalen Datenschutz und vor allem keinen Vendor Lock-in durch proprietäre Cloud-Anbieter. Mein System wächst mit meinen Anforderungen und passt sich kontinuierlich an neue Entwicklungen im Bereich der künstlichen Intelligenz an.

Architektur

Das folgende Diagramm veranschaulicht den aktuellen Aufbau und die Datenflüsse zwischen den verschiedenen Modulen meines Setups:

flowchart TD
    subgraph sources["Datenquellen"]
        direction LR
        s1["Newsletter\nalle 3 Stunden"]
        s2["LinkedIn\nCamoufox"]
        s3["Raindrop\nLightpanda"]
        s4["Briefings\ntäglich"]
    end

    subgraph agents["KI-Agenten · OpenClaw"]
        direction LR
        a1["Newsletter-\nAnalyse"]
        a2["Morning\nBriefing"]
        a3["LinkedIn-\nMonitor"]
        a4["Vault-\nEnrichment"]
    end

    subgraph vault["Wissensspeicher"]
        obsidian["Obsidian Vault\n6.000+ Notizen\nEchtzeit-Sync"]
        vi["Vault-Intelligence\nHybrid-Suche · Graph\nEmbeddings (768-dim)"]
        docs["Document Ingestion\nPDF · DOCX · HTML\nChunking · FTS"]
    end

    subgraph llmstack["LLM-Infrastruktur"]
        classifier["LLM-Classifier v2\nRule Engine +\nConditional Embedding"]
        gateway["LLM-Gateway\n10+ Modelle\nAuto-Fallback"]
        guardrails["Content Guardrails\nCredential-Blocking\nInhaltsfilter"]
    end

    subgraph obs["Observability"]
        grafana["Grafana\n5 Dashboards\n12 Alert Rules"]
        prom["Prometheus + Loki\nMetriken · Logs\n5 Exporter"]
        watchdog["Service-Watchdog\nMetrics-Collector\nSpend-Alerts"]
    end

    subgraph output["Ausgabe & Feedback"]
        blog["Blog-Generator\nAuto-Setup-Update\n+ Newsletter"]
        rl["RL-Feedback-Loop\nScore 0-10\nAuto-Optimierung"]
    end

    sources --> agents
    agents -->|Ergebnisse| obsidian
    obsidian <-->|analysiert| vi
    docs -->|indexiert| obsidian
    agents -.->|LLM-Requests| classifier
    classifier -->|routet| gateway
    gateway --- guardrails
    rl -.->|optimiert Prompts| agents
    blog -.->|liest aus| obsidian
    obs -.->|überwacht| agents
    obs -.->|überwacht| gateway

Die Kernkomponenten im Detail

Um dieses Ökosystem am Laufen zu halten, greifen verschiedene spezialisierte Module ineinander. Im Folgenden erkläre ich die wichtigsten Bausteine meines Setups.

Die zentrale Wissensdatenbank

Das Herzstück meines gesamten Systems ist der Wissensspeicher. Alle gesammelten und generierten Informationen fließen in eine zentrale, auf Obsidian basierende Wissensdatenbank. Mittlerweile umfasst dieser Vault über 6.000 Notizen und synchronisiert sich in Echtzeit über alle meine Geräte. Doch es ist keine bloße Textablage: Ein intelligenter Analyse-Layer, die "Vault-Intelligence", reichert jede neue Notiz automatisch im Hintergrund an. Das System vergibt passende Kategorien, erstellt prägnante Zusammenfassungen und berechnet semantische Embeddings (768-dimensional). Dadurch verwandelt sich eine einfache, flache Notizsammlung in einen tief durchsuchbaren, semantisch vernetzten Wissensgraphen, der mir Zusammenhänge aufzeigt, die ich manuell vielleicht übersehen hätte.

Dokumenten-Pipeline und Ingestion

In meinem Berufsalltag arbeite ich häufig mit umfangreichen Fachdokumenten, Normen, PDF-Berichten und Word-Dateien. Diese werden über eine dedizierte Pipeline per Drag-and-Drop in das System geladen. Die Pipeline zerlegt die Dokumente in sinnvolle Textabschnitte (Chunking) und indexiert sie semantisch. Durch eine Hybrid-Suche kann ich anschließend mein gesamtes Wissen – sowohl eigene Notizen als auch externe Dokumente – effizient durchsuchen. Das System findet Inhalte nicht nur über exakte Stichworte (Full-Text Search), sondern auch nach ihrer inhaltlichen Bedeutung.

Spezialisierte KI-Agenten

Anstatt alle Aufgaben mit einem einzigen, monolithischen Prompt zu lösen, setze ich auf ein Team aus spezialisierten KI-Agenten (basierend auf OpenClaw), die wiederkehrende Aufgaben völlig autark übernehmen. Ein Newsletter-Agent analysiert beispielsweise alle drei Stunden eingehende Fach-Newsletter und extrahiert nur die für mich relevanten Insights, ohne dass ich mich durch Werbeblöcke wühlen muss. Der Morning-Briefing-Agent erstellt mir jeden Morgen eine personalisierte Zusammenfassung der wichtigsten nächtlichen Ereignisse – inklusive einer optionalen Ops-Lage, falls es Auffälligkeiten auf meinem Server gab. Besonders spannend ist der LinkedIn-Monitor: Er nutzt einen speziellen Anti-Detection-Browser (Camoufox), um relevante Fachbeiträge in meinem Netzwerk zu beobachten und mir proaktiv fundierte Kommentar-Vorschläge zu generieren. Darauf aufbauend erstellt ein weiterer Agent wöchentliche Post-Entwürfe für meine eigenen Inhalte, basierend auf den erkannten Trends. Alle Ergebnisse dieser Agenten landen strukturiert und durchsuchbar in meiner Wissensdatenbank.

LLM-Classifier v2

Eine der wichtigsten Entwicklungen der letzten Zeit ist der LLM-Classifier in der Version 2. Er ist das absolute Herzstück meiner Kostenoptimierung. Ein intelligenter Request-Classifier analysiert jede ausgehende LLM-Anfrage im System und routet sie dynamisch an das dafür optimal geeignete Modell. Statt pauschal jede kleine Zusammenfassung an die teuersten und größten Modelle zu schicken, unterscheidet der Classifier nun sechs Leistungsstufen: simple (für einfache Heartbeat-Checks), cheap (für Hintergrund-Cron-Jobs), coding (für Code-Generierung), analysis (für komplexe Datenanalysen), creative (für Textproduktion) und general (als Fallback). Eine schnelle Rule Engine erkennt dabei Standard-Muster wie Code-Blöcke oder Cron-Prefixe in Millisekunden. Nur bei unsicheren Fällen werden zusätzlich Embeddings berechnet, um den semantischen Kontext der Anfrage zu verstehen. Dieses "Conditional Embedding" spart mir rund 85% der ansonsten anfallenden Embedding-Aufrufe. Zudem sorgt ein Reinforcement-Learning-Loop dafür, dass sich die Zuordnungen täglich automatisch anpassen und verbessern.

LLM-Gateway und Guardrails

Alle KI-Anfragen, egal von welchem Agenten oder Skript, laufen durch ein zentrales LLM-Gateway. Dieses Gateway verwaltet Verbindungen zu über 10 verschiedenen KI-Modellen und Providern. Automatische Fallback-Ketten garantieren, dass mein System auch dann weiterläuft, wenn ein Provider temporär ausfällt. Besonderen Wert lege ich hier auf Sicherheit: Integrierte Content Guardrails scannen jeden ausgehenden Prompt und blockieren oder maskieren sensible Daten wie API-Keys, Kreditkarteninformationen oder IBANs zentral. Ein dreistufiger Kostenschutz bewahrt mich vor Budgetüberraschungen: Es gibt ein hartes Tages-Budget-Limit, proaktive Spend-Alerts, die mich bei ungewöhnlichen Spitzen warnen, und strikte Cron-Timeouts, die verhindern, dass sich LLM-Agenten in endlosen Feedback-Schleifen verfangen.

Automatisierung und Orchestrierung

Im Hintergrund orchestrieren Cron-Jobs den gesamten täglichen Betrieb. Über 20 spezialisierte Jobs laufen rund um die Uhr auf meinem Server. Sie sammeln Daten, stoßen Analysen an, bereiten Informationen auf und versenden Benachrichtigungen. Das reicht von der regelmäßigen Datensicherung der Wissensdatenbank über die Log-Rotation bis hin zum kontinuierlichen Monitoring meiner Provider-Guthaben.

Observability Stack

Da das System mittlerweile eine gewisse Komplexität erreicht hat, ist ein lückenloses Monitoring unerlässlich. Mein Observability Stack überwacht alle Komponenten in Echtzeit. Grafana dient als visuelle Kommandozentrale und bietet mir fünf spezialisierte Dashboards:
  • LLM Management (überwacht die Performance des Classifiers),
  • LLM Controlling (behält die Kosten und die Modell-Verteilung im Blick),
  • VPS Health (zeigt Server-Ressourcen wie CPU, RAM und Disk I/O),
  • Services Overview (kontrolliert den Status aller Container und die Gültigkeit von SSL-Zertifikaten) und
  • Business Metrics (visualisiert die Aktivität und das Wachstum meines Obsidian-Vaults).
  • Im Hintergrund sammeln Prometheus und fünf Exporter kontinuierlich Metriken, während Loki die Logs aller Container zentral aggregiert. Zwölf definierte Alert Rules sorgen dafür, dass ich bei kritischen Problemen sofort automatisch per E-Mail benachrichtigt werde.

    Reinforcement Learning Feedback-Loop

    Ein System ist nur so gut wie seine Fähigkeit, aus Fehlern zu lernen. Daher habe ich einen automatisierten RL-Feedback-Loop integriert. Die Qualität der KI-Ausgaben wird fortlaufend bewertet. Ein separates, leichtgewichtiges Bewertungsmodell vergibt für die Ergebnisse der Agenten einen Score von 0 bis 10. Fällt die Qualität unter einen bestimmten Schwellenwert, analysiert das System den Fehler und optimiert die zugrundeliegenden Prompts automatisch. So entsteht ein sich selbst verbesserndes Ökosystem, das mit der Zeit immer präzisere und hilfreichere Ergebnisse liefert.

    Blog-Automatisierung

    Dieser Blog selbst ist Teil des Setups. Wenn ich architektonische Änderungen vornehme, werden diese Neuerungen automatisch in Blog-Posts umgewandelt. Ein LLM übersetzt dabei meine rohen technischen Commits und Notizen in allgemein verständliche Artikel. Ein täglicher Newsletter informiert Abonnenten über neue Beiträge. Auch diese Setup-Übersicht, die Sie gerade lesen, wird durch einen automatisierten Prozess aktualisiert, sobald neue signifikante Änderungen im System dokumentiert wurden.

    Aktueller Stand

    In den letzten Wochen lag der Fokus stark auf der Optimierung von Kosten, Performance und Ausfallsicherheit. Die Einführung des LLM-Classifier v2 mit seiner Rule Engine und dem Conditional Embedding war ein massiver Sprung nach vorn, der die Effizienz des Routings drastisch verbessert und gleichzeitig API-Kosten gesenkt hat.

    Gleichzeitig wurde der Observability Stack massiv ausgebaut. Mit nun fünf dedizierten Grafana-Dashboards und zwölf aktiven Alert-Rules habe ich jederzeit volle Transparenz über den Zustand meines Servers, die anfallenden LLM-Kosten und die Performance der einzelnen Agenten.

    Zudem zeigt der neu implementierte RL-Feedback-Loop erste Erfolge: Die Qualität der Agenten-Outputs stabilisiert sich zunehmend, da das System schlechte Prompts nun selbstständig erkennt und iterativ verbessert. Mein AI-Setup wandelt sich damit immer mehr von einer statischen Automatisierung hin zu einem lernenden, adaptiven Assistenten.