Gemma 4 als Cheap-Tier-Kandidat in LiteLLM
Mein bisheriges "Cheap-Tier"-Modell für einfache Aufgaben fiel in meinem LiteLLM-Gateway ständig mit HTTP-500-Timeouts aus. Um nicht auf teure Premium-Modelle ausweichen zu müssen, habe ich meine Routing-Strategie überarbeitet und Gemma 4 sowie MiniMax M2.5 als neue, kosteneffiziente Basis-Modelle integriert.
Neue Cheap-Tiers: Gemma 4 und MiniMax
Für allgemeine Text- und Klassifizierungsaufgaben nutze ich nun Gemma 4. Als Mixture-of-Experts-Modell (MoE) ist es extrem schnell und liefert saubere logische Zwischenschritte (Reasoning). Über das Google AI Studio lässt es sich aktuell im Free-Tier kostenlos anbinden. Dafür habe ich in LiteLLM neue Aliase wie gemma-4 angelegt.
Zusätzlich habe ich den Alias coding-cheap für MiniMax M2.5 eingerichtet. Nicht jedes kleine Python-Skript erfordert ein teures Premium-Modell. MiniMax liefert starke Benchmark-Werte fürs Programmieren, kostet aber nur einen Bruchteil (ca. 0,30 bis 1,20 USD pro Million Token). Mein coding-premium-Tier bleibt komplexen Architektur-Entscheidungen vorbehalten, aber für schnelle Iterationen habe ich nun eine extrem effiziente Alternative.
Kontext-Optimierung für mehr Präzision
Bei der Umstellung fiel mir ein weiterer Hebel auf: Die Länge der System-Prompts. Zuvor übergab ich bei Projektstart automatisch eine knapp 400 Zeilen lange CLAUDE.md als Kontext. Zu viel irrelevanter Hintergrund lässt die KI jedoch den Fokus verlieren.
Ich habe spezifische Service-Sektionen in separate README-Dateien in Unterordner ausgelagert. Die Hauptdatei verweist nur noch darauf, wenn diese Informationen wirklich gebraucht werden. Das reduziert den Standard-Kontext, den die KI bei jeder Anfrage verarbeiten muss, um ein Viertel. Das spart Token und macht die Antworten spürbar präziser.
Meine wichtigsten Erkenntnisse: * Tiers einrichten: Trenne Aufgaben konsequent nach Komplexität und nutze günstige Modelle oder Free-Tiers für einfache Fleißarbeit, während Premium-Modelle für schwere Logik reserviert bleiben. * Kontext reduzieren: Weniger, aber dafür hochrelevanter System-Kontext führt zu besseren und günstigeren KI-Ergebnissen.