Anthropic-API Drittanbieter-Restriction Check
Als Berichte über mögliche API-Restriktionen bei Anthropic für Drittanbieter aufkamen, habe ich sofort mein zentrales LLM-Gateway (LiteLLM) geprüft. Die Entwarnung folgte prompt: Alle Claude-Modelle liefen reibungslos, doch der Check offenbarte ein anderes Problem in meiner Infrastruktur.
LLM-Routing und neue Cheap-Tiers
Mein bisheriges "Cheap-Tier"-Modell (Grok) produzierte im Hintergrund reihenweise HTTP 500 Timeouts. Da meine Tools nicht direkt mit APIs, sondern über LiteLLM-Aliase kommunizieren, konnte ich das fehlerhafte Modell nahtlos austauschen, ohne meine Anwendungen anzupassen.
Für alltägliche Textaufgaben nutze ich nun Gemma 4 (aktuell kostenlos im Free-Tier via Google AI Studio). Für kleine Skripte und Prototyping habe ich zudem den Alias coding-cheap mit MiniMax M2.5 belegt. Dieses Modell glänzt in Benchmarks, kostet aber nur einen Bruchteil der großen Flaggschiffe, die ich mir fortan nur noch für komplexe Architekturfragen aufspare.
Kontext-Optimierung für KI-Agenten
Eine aktuelle Studie zur Effizienz von KI-Agenten hat mich zudem dazu gebracht, meine System-Prompts zu überdenken: Weniger Kontext führt zu besseren Ergebnissen. Meine zentrale CLAUDE.md, die Projektrichtlinien und Architekturvorgaben enthält, war auf fast 400 Zeilen angewachsen. Die Folgen dieses Overloads: höhere Token-Kosten, langsamere Antworten und das "Lost in the Middle"-Phänomen, bei dem die KI wichtige Anweisungen schlichtweg ignoriert.
Meine Lösung ist strikte Modularisierung. Ich habe spezifische Sektionen zu Server-Diensten oder Datenbanken in separate Unter-Dokumente ausgelagert. In der Hauptdatei verbleiben nur noch essenzielle globale Regeln und Verweise, sodass die KI sich Details nur zieht, wenn sie wirklich relevant sind.
Zusammenfassend für dein Setup:
* Nutze ein LLM-Gateway mit Modell-Aliasen, um bei API-Ausfällen oder neuen, günstigen Modellen sofort flexibel reagieren zu können.
* Halte zentrale Kontext-Dateien (wie CLAUDE.md) kurz und lagere spezifisches Wissen in referenzierte Unterdokumente aus.