← Thomas Winkler

Setup-Update 05.05.2026: 3 Verbesserungen

05.05.2026 · ai-tools

Heute stand die Optimierung meines KI-Setups auf dem Plan, um Routing-Kosten zu senken, die Sicherheit im Reinforcement-Learning-Loop zu erhöhen und die Dokumentenverarbeitung neu aufzustellen. Solche regelmäßigen Audits der eigenen Infrastruktur sind essenziell, wenn man als Produktmanager oder Designer mit schnelllebigen KI-Modellen verlässliche und skalierbare Systeme bauen will.

Classifier Safety-Drift-Check (RL-Loop-Härtung)

In meinem autonomen Agenten-Setup ist mir aufgefallen, dass das Reinforcement Learning (RL) durch fehlerhafte Klassifizierungen langsam in unsicheres Verhalten abdriftet. Wenn KI-Modelle sich durch automatisiertes Feedback kontinuierlich selbst bewerten und anpassen, verstärken sich kleine Bias-Fehler oder Halluzinationen über die Zeit exponentiell. Das führt zu unvorhersehbaren Reaktionen im Endprodukt und inkonsistenter User Experience, was gerade im Enterprise-Kontext ein absolutes Risiko darstellt.

Ich habe daher eine harte Validierungsschicht direkt in mein LLM-Gateway eingezogen. Bevor das Feedback in den RL-Loop zurückfließt, prüft ein dediziertes, statisches Regelwerk zusammen mit einem kleinen, fixierten Kontroll-LLM die Outputs auf toxische, inkonsistente oder unsichere Muster. Erst wenn dieser "Safety-Drift-Check" bestanden ist, darf das Modell mit den neuen Daten weiterlernen. Schlägt der Check fehl, wird die Iteration verworfen und ein Alert für das Produkt-Team ausgelöst.

Verlasst euch beim kontinuierlichen Lernen von Modellen niemals auf die KI allein. Ein klassischer, regelbasierter "Circuit Breaker" schützt das Produkt vor schleichendem Qualitätsverlust und gibt dem Produktmanagement die nötige Kontrolle über autonome Systeme zurück.

Eval: Xiaomi MiMo V2.5 Pro für LLM-Classifier-Routing

Bisher lief das Routing meiner Nutzeranfragen fast ausschließlich über große, teure Modelle, was die API-Kosten für einfache Klassifizierungsaufgaben unnötig in die Höhe trieb. Gerade bei hohem Traffic braucht es eine deutlich günstigere, aber ähnlich präzise Alternative für den initialen Classifier, der lediglich den Intent des Nutzers erkennen soll. In der Evaluierung lag der Fokus auf der Zero-Shot-Genauigkeit bei der Kategorisierung von typischen Produkt-Intents.

Ich habe das neue Xiaomi MiMo V2.5 Pro Modell evaluiert und es nun als primären Router im Gateway konfiguriert. Es ist architektonisch deutlich leichtgewichtiger und entscheidet jetzt für den Bruchteil eines Cents, ob eine Anfrage an ein teures Reasoning-Modell für komplexe Logik oder an einen schnellen Standard-Endpunkt weitergeleitet wird. Die Latenz beim ersten Token ist minimal gestiegen, aber die Kosteneinsparung auf Systemebene liegt bei knapp 70 Prozent. Die Integration verlief nahtlos, da die API-Struktur kompatibel blieb.

Ein intelligentes LLM-Routing ist aktuell der größte Hebel für die Wirtschaftlichkeit von KI-Produkten. Nutzt kleine, stark spezialisierte Modelle als effiziente Türsteher für eure teuren Heavy-Lifter, um Budgets für echte Innovationen freizuhalten.

Eval: DeepSeek-OCR vs. Docling Positionierung im AAS-Service

Bei der Extraktion von Daten aus komplexen PDFs und Bildern in unserem internen "AI-as-a-Service" (AAS) gab es in der Vergangenheit immer wieder Formatierungsverluste. Die bisherige Architektur war nicht optimal auf visuelles Dokumentenverständnis abgestimmt, was nachgelagert zu schlechten Ergebnissen in der Suchfunktion führte. Tabellen, mehrspaltige Texte und verschachtelte Layouts wurden schlichtweg zerrissen.

Ich habe DeepSeek-OCR und Docling im direkten Vergleich getestet, um die Pipeline komplett neu zu strukturieren. Das Ergebnis der Evaluierung: DeepSeek-OCR übernimmt ab sofort die reine Rohtext- und Tabellenextraktion direkt auf dem Server, da es visuelle Strukturen extrem robust erkennt. Docling wird hingegen nachgelagert für das semantische Chunking und die Layout-Rekonstruktion eingesetzt. Diese hybride Architektur trennt die visuelle Erkennung sauber von der strukturellen Aufbereitung der Daten.

Monolithische OCR-Lösungen stoßen bei komplexen Layouts schnell an ihre Grenzen. Eine modulare Architektur, die das beste Tool für den jeweiligen Verarbeitungsschritt nutzt, verbessert die Datenqualität für RAG-Systeme (Retrieval-Augmented Generation) enorm und erspart dem Design- und Produktteam langes Prompt-Engineering im Nachgang.