← Thomas Winkler

Gemini Spend Caps Evaluierung + Setup

20.03.2026 · ai-tools

Um die API-Kosten meiner automatisierten Wissensextraktion in den Griff zu bekommen und explodierende Rechnungen zu verhindern, habe ich meine Pipeline auf asynchrone Verarbeitung und strikte lokale Budgets umgebaut.

Kosten halbieren durch Batch API und lokale Limits

Anstatt Dokumente einzeln und synchron an das Sprachmodell zu schicken, nutze ich nun die Batch API mit dem Modell gemini-2.5-flash-lite. Mein Server bündelt die Aufgaben zu einem Job und prüft alle 10 Minuten den Status. Da Latenz bei der Hintergrundverarbeitung von Dokumenten keine Rolle spielt, spare ich durch diesen simplen Architekturwechsel rund 50 % der LLM-Kosten bei exakt gleicher Qualität.

Da mir die neuen "Spend Caps" von Google (mit einem harten Mindestlimit von 250 Dollar) für ein privates Setup immer noch zu riskant sind, habe ich zusätzlich einen lokalen Budget-Tracker integriert. Vor jedem Batch-Job schätzt mein Server die Kosten und gleicht sie mit meinem selbst definierten Monatslimit (z. B. 10 Dollar) ab. Nur wenn das Budget ausreicht, wird der API-Call abgesetzt. Ist es erschöpft, blockiert das System sofort.

Artificial Engine Optimization (AEO)

Zusätzlich habe ich mein Frontend optimiert, damit KI-Agenten und LLM-Crawler wie GPTBot oder Perplexity meine Inhalte korrekt erfassen und zitieren können. Dafür habe ich in der robots.txt explizite Freigaben für diese Bots erteilt und eine llms.txt eingeführt. Dieser aufkommende Standard liegt auf dem Server und bietet KI-Modellen eine maschinenlesbare, auf das Wesentliche reduzierte Beschreibung der Website-Struktur.

Wichtigste Erkenntnisse: * Nutzen Sie für Hintergrundprozesse immer Batch APIs – die Kosteneinsparungen sind ein massiver Hebel. * Verlassen Sie sich nie nur auf die Limits der Cloud-Anbieter. Ein simpler lokaler Tracker in der eigenen Applikation, der vor dem API-Call abriegelt, ist der beste Schutz vor Kostenexplosionen.