LLM-Kosten unter Kontrolle: Virtual Keys und Audit-Architektur als Gatekeeper
Als meine KI-API-Kosten plötzlich durch unerkannte Aufrufe des teuren Claude Opus Modells explodierten, wurde mir eine kritische Lücke in meiner Architektur bewusst: Alle meine angebundenen Tools teilten sich denselben Master-Schlüssel. Um die Ausgaben nicht nur zu überwachen, sondern aktiv zu kontrollieren, habe ich mein Setup auf eine strikte Gatekeeper-Architektur umgebaut.
Die Hintertür im Gateway schließen
Mein selbstgebauter LLM-Classifier sollte eigentlich alle Anfragen intelligent an das passende, meist günstige Modell routen. Mein LLM-Gateway stellte jedoch standardmäßig einen direkten "Pass-Through"-Endpunkt bereit. Jeder Client mit dem Master-Key konnte den Classifier umgehen und direkt teure Modelle anfordern.
Um diesen Bypass zu verhindern, habe ich alle direkten Routen im Gateway blockiert (sie werfen nun einen HTTP 403 Fehler). Nach dem "Default Deny"-Prinzip ist der Classifier jetzt der absolute Flaschenhals und der einzige Weg zu den Modellen. Den kompromittierten Master-Key habe ich über ein automatisiertes Skript in allen Konfigurationsdateien rotiert.
Virtuelle Schlüssel als Gatekeeper
Der geteilte Master-Key wurde durch "Virtual Keys" ersetzt. Heute bekommt jeder Client – sei es ein Notizen-Tool, ein Prototyp oder eine Automatisierung – einen eigenen virtuellen Schlüssel über die Management-API des Gateways.
Jeder dieser Schlüssel hat harte Leitplanken: Ein Hintergrundprozess erhält beispielsweise ein Tagesbudget von 0,10 Dollar und darf ausschließlich auf einer Allowlist von günstigen Modellen operieren. Läuft ein Skript Amok, kann es physisch keine Unsummen mehr generieren. Ein neues Echtzeit-Dashboard zeigt mir zudem die Ausgaben pro Client sowie unzugeordnete Requests. Schlägt ein intelligenter Alarm an, sehe ich sofort den Verursacher und kann gezielt diesen einen Virtual Key pausieren, ohne das restliche System zu beeinträchtigen.
Was du für dein Setup mitnehmen kannst:
- Teile niemals einen Master-Key zwischen verschiedenen Diensten oder Skripten.
- Nutze virtuelle Schlüssel mit harten Budgets und Modell-Allowlists direkt auf Gateway-Ebene.