← Thomas Winkler

MiniMax M2.7 + Qwen 3.6 Plus in LiteLLM Cheap-Tier

22.04.2026 · ai-tools

Um meine API-Kosten für tokenintensive, aber simple KI-Aufgaben zu senken, habe ich mein Setup auf eine Routing-Strategie mit LiteLLM umgestellt. Statt für alles teure Flaggschiff-Modelle zu nutzen, trenne ich nun strikt zwischen komplexem Denken und reiner Fleißarbeit.

LiteLLM und der Cheap-Tier

Als LLM-Gateway fungiert bei mir LiteLLM. Meine Automatisierungen (wie Make oder n8n) schicken Prompts an dieses Gateway, das die Anfragen an den passenden KI-Anbieter weiterleitet. Dafür habe ich eine Modellgruppe namens cheap-tier angelegt und als Backend-Modelle MiniMax M2.7 und Qwen 3.6 Plus konfiguriert. Beide bieten aktuell ein hervorragendes Preis-Leistungs-Verhältnis.

Rufe ich in einem Skript nun das Modell cheap-tier auf, übernimmt LiteLLM das Routing und leitet die Anfrage an MiniMax oder Qwen weiter. Das spart nicht nur massiv Kosten, sondern erhöht auch die Resilienz: Fällt eine API aus, greift nahtlos das andere Modell als Fallback.

Denken vs. Abarbeiten in der Praxis

Für 80 % der Aufgaben – wie Entitätsextraktion, Sentiment-Analyse oder das Umformatieren von Text in JSON – reicht die Qualität dieses Cheap-Tiers völlig aus. Das verändert auch meine Workflow-Architektur: Bei der Auswertung von Nutzerinterviews lasse ich die rohen, langen Transkripte zuerst durch den Cheap-Tier laufen, um Kernzitate zu extrahieren. Das sind viele Token, aber wenig kognitive Arbeit. Erst im zweiten Schritt übergebe ich dieses stark verdichtete, saubere Resultat an ein Premium-Modell, um daraus komplexe strategische Entscheidungen abzuleiten.

Fazit: Wer direkt mit APIs arbeitet, sollte ein Gateway dazwischenschalten und Workflows konsequent nach Komplexität kategorisieren. Simple, tokenintensive Aufgaben an einen gebündelten Endpunkt mit kosteneffizienten Modellen auszulagern, senkt die monatlichen Kosten drastisch, ohne die Qualität des Outputs zu verschlechtern.