LLM-Kosten: Reasoning-Token-Reduktion

16.03.2026 · ai-tools

Bei der Analyse meiner API-Ausgaben fiel mir auf, dass mein automatisiertes KI-Setup unnötig viel Geld verbrannte. Der Grund waren zu viele generierte Tokens durch ausführliche Erklärungen, Höflichkeitsfloskeln und das "Reasoning" der Sprachmodelle bei einfachen Hintergrundaufgaben.

Strikte Effizienz-Direktiven gegen Token-Verschwendung

Was in einem Chat-Interface angenehm ist, wird bei automatisierten Skripten zum teuren Hindernis. Um die Token-Produktion drastisch zu reduzieren, habe ich mein Setup an drei zentralen Stellen optimiert:

1. Globale System-Anweisungen (BOOT.md): Ich habe eine harte Effizienz-Direktive definiert: Antworte direkt und kompakt. Verzichte auf Einleitungen, Zusammenfassungen und jegliche Höflichkeitsfloskeln. Das stoppt das teure Paraphrasieren meiner Anfragen, bevor das Modell zur Sache kommt.

2. Optimierung der Hintergrund-Routinen: Für Cron-Jobs, die strukturierte Daten ausgeben sollen, lautet die Anweisung nun zwingend: Gib ausschließlich valides JSON zurück. Kein Markdown, keine Erklärungen davor oder danach. Das spart Tokens und macht den anschließenden Parsing-Prozess wesentlich robuster.

3. Verschlankung der System-Checks (HEARTBEAT.md): Für hochfrequente Pings an mein LLM-Gateway fordere ich durch extrem kompakte Prompts nur noch ein einziges Wort oder einen simplen Statuscode als Antwort. Das reduziert die Kosten für diese trivialen Abfragen auf ein absolutes Minimum.

Das richtige Modell für die richtige Aufgabe

Parallel zur Prompt-Optimierung habe ich einen Tier-Audit meiner Modelle durchgeführt. Die Versuchung ist groß, überall das stärkste Modell einzusetzen. Für einfache Strukturierungsaufgaben reicht jedoch ein kleines, schnelles und günstiges Modell völlig aus, während komplexe Analysen den leistungsstärkeren Modellen vorbehalten bleiben sollten.

Die wichtigste Erkenntnis für eigene Projekte: Trenne strikt zwischen Chat und Automatisierung. Verbiete dem Modell bei einfachen Extraktionsaufgaben explizit das "laute Nachdenken" und unnötige Floskeln, um Zeit und bares Geld zu sparen.