LLM Request Classifier: Intelligentes Routing ohne Agent-Autonomie
Letzte Woche warnte mich mein LLM-Controlling vor einer Kostenexplosion: Ein autonomer Agent hatte in drei Tagen massenhaft teure Premium-Modelle für simple Hintergrundaufgaben genutzt, da in seiner internen Konfiguration alle Modelle fälschlicherweise mit null Dollar deklariert waren. Um das zu stoppen, musste ich die Architektur grundlegend umbauen und die Aufgabenausführung von der Modellwahl trennen.
Architektur-Shift: Entzug der Modell-Sichtbarkeit
KI-Agenten sind opportunistisch und wählen für jede Aufgabe das stärkste verfügbare Werkzeug, wenn man sie lässt. Da Agenten keine Infrastruktur-Entscheidungen treffen sollten, habe ich die Konfiguration radikal beschnitten. Der Agent kennt jetzt nur noch einen einzigen Endpunkt und weiß nicht mehr, ob dahinter ein teures Premium- oder ein lokales Open-Source-Modell steckt. Die Entscheidung über das Routing übernimmt stattdessen ein von mir gebauter "LLM Request Classifier".
Regelbasiertes Routing statt KI
Dieser Classifier ist ein leichtgewichtiger lokaler Proxy-Service (geschrieben in Python mit FastAPI). Anstatt ein LLM zur Klassifizierung der Prompts einzusetzen – was Hunderte Millisekunden Latenz und hohen RAM-Bedarf bedeutet hätte –, nutze ich eine klassische Rule-Engine.
Der Classifier analysiert Metadaten der Anfrage: Wie lang ist der Kontext? Sind Code-Blöcke enthalten? Gibt es Keywords, die auf komplexe Analysen hindeuten? Basierend auf diesen harten Regeln stuft er die Anfrage in eine von fünf Kategorien ein (z.B. Simple, Coding, Analysis) und übergibt diese als Tag an mein zentrales LLM-Gateway. Das Gateway wählt dann das exakt passende Modell. Die Latenz dieses Classifiers liegt bei unter 0,1 Millisekunden bei nur 30 Megabyte Arbeitsspeicher.
Zusätzlich schützt ein simples "Self-Healing"-Skript im Hintergrund vor Regressionen: Es prüft alle fünf Minuten, ob Software-Updates die Agenten-Konfiguration überschrieben haben, und korrigiert Abweichungen automatisch.
Fazit für die eigene Architektur: Trenne die Intelligenz des Agenten strikt vom Modell-Routing und setze für Infrastruktur-Entscheidungen auf schnelle, klassische Rule-Engines statt auf weitere KI-Modelle. Durch diese saubere Trennung sanken meine monatlichen Kosten von prognostizierten 70 auf unter 20 Dollar.