Gemini Embedding 2 Upgrade
Um die semantische Suchqualität meines RAG-Systems zu verbessern und gleichzeitig die API-Kosten zu senken, habe ich meine KI-Infrastruktur gezielt aktualisiert. Kernstück war der Wechsel auf die "Preview"-Version des neuen Gemini Embedding 2 Modells sowie die aggressive Optimierung meines LLM-Gateways.
Re-Embedding der Wissensdatenbank
Da neue Embedding-Modelle eine völlig andere mathematische Repräsentation nutzen (in diesem Fall 768 Dimensionen), musste ich meine knapp 6.000 Notizen und Dokumente komplett neu verarbeiten. Ein klassischer Fallstrick zeigte sich direkt beim Import: Mein CLI-Tool lud die API-Schlüssel nicht korrekt. Erst ein Fix im Entrypoint für das explizite Laden der.env-Datei ermöglichte einen fehlerfreien Durchlauf.
Wer Embedding-Modelle wechselt, muss immer den gesamten Datenbestand neu einlesen und sicherstellen, dass die Vektordatenbank an die neuen Dimensionen angepasst ist. Ein Mischen alter und neuer Vektoren ist technisch nicht möglich.
Kostenkontrolle & Sicherheit
Automatisierte Hintergrundprozesse senden oft unnötigerweise identische, lange System-Prompts an die API. Um das zu stoppen, habe ich mein LLM-Gateway auf Kosteneffizienz getrimmt und die Cache-TTL (Time-to-Live) auf 24 Stunden erhöht. Zusätzlich nutze ich nun das Provider-seitige Prompt-Caching, welches wiederkehrende Kontext-Teile erkennt und deutlich günstiger oder gar nicht abrechnet.Da mit wachsenden KI-Setups auch die Anzahl sensibler API-Keys steigt, habe ich parallel einen Self-Hosted Password Manager via Docker Compose (mit PostgreSQL als Backend und Nginx als Reverse Proxy) auf einem VPS aufgesetzt. So landen keine Credentials mehr in ungesicherten Dateien oder Versionskontrollsystemen.
Meine wichtigsten Erkenntnisse für Ihr Setup:
- Schalten Sie zwingend ein LLM-Gateway zwischen Applikation und externe API, um lokales sowie Provider-seitiges Caching voll auszunutzen.
- Bauen Sie Re-Embedding-Skripte so auf, dass sie API-Ratelimits und Timeouts bei Tausenden Dokumenten robust abfangen.