← Thomas Winkler

Anthropic-API Drittanbieter-Restriction Check

07.04.2026 · ai-tools

Als Berichte über mögliche API-Restriktionen bei Anthropic für Drittanbieter aufkamen, habe ich sofort mein zentrales LLM-Gateway (LiteLLM) geprüft. Die Entwarnung folgte prompt: Alle Claude-Modelle liefen reibungslos, doch der Check offenbarte ein anderes Problem in meiner Infrastruktur.

LLM-Routing und neue Cheap-Tiers

Mein bisheriges "Cheap-Tier"-Modell (Grok) produzierte im Hintergrund reihenweise HTTP 500 Timeouts. Da meine Tools nicht direkt mit APIs, sondern über LiteLLM-Aliase kommunizieren, konnte ich das fehlerhafte Modell nahtlos austauschen, ohne meine Anwendungen anzupassen.

Für alltägliche Textaufgaben nutze ich nun Gemma 4 (aktuell kostenlos im Free-Tier via Google AI Studio). Für kleine Skripte und Prototyping habe ich zudem den Alias coding-cheap mit MiniMax M2.5 belegt. Dieses Modell glänzt in Benchmarks, kostet aber nur einen Bruchteil der großen Flaggschiffe, die ich mir fortan nur noch für komplexe Architekturfragen aufspare.

Kontext-Optimierung für KI-Agenten

Eine aktuelle Studie zur Effizienz von KI-Agenten hat mich zudem dazu gebracht, meine System-Prompts zu überdenken: Weniger Kontext führt zu besseren Ergebnissen. Meine zentrale CLAUDE.md, die Projektrichtlinien und Architekturvorgaben enthält, war auf fast 400 Zeilen angewachsen. Die Folgen dieses Overloads: höhere Token-Kosten, langsamere Antworten und das "Lost in the Middle"-Phänomen, bei dem die KI wichtige Anweisungen schlichtweg ignoriert.

Meine Lösung ist strikte Modularisierung. Ich habe spezifische Sektionen zu Server-Diensten oder Datenbanken in separate Unter-Dokumente ausgelagert. In der Hauptdatei verbleiben nur noch essenzielle globale Regeln und Verweise, sodass die KI sich Details nur zieht, wenn sie wirklich relevant sind.

Zusammenfassend für dein Setup: * Nutze ein LLM-Gateway mit Modell-Aliasen, um bei API-Ausfällen oder neuen, günstigen Modellen sofort flexibel reagieren zu können. * Halte zentrale Kontext-Dateien (wie CLAUDE.md) kurz und lagere spezifisches Wissen in referenzierte Unterdokumente aus.