Gemini Batch API Evaluierung fuer Doc-Pipeline
Um meine internen Dokumenten-Pipelines kosteneffizienter zu machen und gleichzeitig sicherzustellen, dass meine öffentlichen Inhalte von KI-Systemen korrekt verstanden werden, habe ich mein Setup um AEO-Standards (Artificial Engine Optimization) und die Gemini Batch API erweitert.
AEO: Inhalte für KI-Agenten optimieren
Ich habe meine robots.txt explizit für KI-Crawler wie GPTBot, Claude-Web und PerplexityBot geöffnet, anstatt sie pauschal zu blockieren. Zusätzlich nutze ich den neuen Community-Standard der llms.txt. Diese maschinenlesbare Markdown-Datei liefert großen Sprachmodellen eine aufgeräumte Zusammenfassung meiner Seitenstruktur und Themen, ohne dass sie sich durch HTML-Code wühlen müssen. Ergänzt wird dies durch saubere Sitemaps und Schema.org JSON-LD Metadaten, damit KI-Modelle den Kontext von Artikeln sofort erfassen können.
Kosten halbieren mit der Gemini Batch API
Meine interne Pipeline verarbeitet lange PDFs, erstellt Chunks, generiert Embeddings für die semantische Suche und schreibt Synthesen. Bisher lief das synchron: Jeder API-Call blockierte das System beim Warten auf die Antwort und kostete den vollen Preis.
Für solche Hintergrundprozesse habe ich nun die Gemini Batch API evaluiert und implementiert. Anstatt jeden Textabschnitt sofort ans LLM zu schicken, sammle ich die Anfragen in einer strukturierten JSONL-Datei und sende sie als gesammelten Batch-Job. Google hat bis zu 24 Stunden Zeit für die Verarbeitung und gewährt im Gegenzug 50 % Rabatt auf alle Modelle. Das Geniale daran: Es funktioniert nicht nur für die Textgenerierung, sondern auch für die massenhafte Erstellung von Vektordaten (batches.create_embeddings). Mein System holt die fertigen Ergebnisse nun einfach asynchron ab und speichert sie in der Datenbank.
Erkenntnisse für die eigene Architektur:
* Implementiere eine llms.txt und öffne deine Crawler-Richtlinien für öffentliche Dokumentationen, um in KI-Antworten stattzufinden.
* Stelle nicht-zeitkritische Datenverarbeitung (wie Archivierung oder Indexierung) auf Batch-APIs um, um die Infrastrukturkosten massiv zu senken.