← Thomas Winkler

Prompt-Versionierung + Auto-Optimierung

17.03.2026 · ai-tools

Bisher war Prompt-Optimierung in meinen automatisierten Workflows reiner Blindflug: Manuelles Austauschen von Wörtern, wenn die Qualität der KI-Ausgaben nachließ. Um das systematisch zu lösen, habe ich mein Setup auf eine automatisierte Prompt-Versionierung mit einem "LLM-as-a-Judge" und Auto-Optimierung umgebaut.

Der LLM-as-a-Judge Feedback Loop

Mein KI-Agent (das "Worker-Modell") fasst wöchentlich Fach-Newsletter für meine Wissensdatenbank zusammen. Zeitversetzt bewertet ein zweites Modell (der "Judge") diese Zusammenfassungen auf einer Skala von 0 bis 10 nach Relevanz, Akkuratesse, Qualität und Umsetzbarkeit (Actionability). Meine wichtigste Erkenntnis: Das Judge-Modell darf niemals dasselbe wie das Agent-Modell sein, um massive Selbstüberschätzung zu vermeiden. Ich nutze ein schnelles, günstiges Modell für die Textarbeit und ein logisch stärkeres als Judge.

Auto-Optimierung und effizientes Scraping

Mein Prompt-Management ist nun streng versioniert. Jeden Sonntag berechnet ein Cron-Job den durchschnittlichen Score der vergangenen Woche. Fällt dieser unter den Schwellenwert von 6.5, triggert das System eine Meta-Prompt-Evolution. Ein Optimierungs-Prompt analysiert das Judge-Feedback (z.B. mangelnde Actionability) und schreibt automatisch eine verbesserte Prompt-Version (v2). Erzielt v2 in der Folgewoche einen schlechteren Score, greift ein automatischer Rollback auf v1.

Damit die Datenbeschaffung im Vorfeld ressourcenschonend läuft, habe ich headless Chrome durch "Lightpanda" (einen in Zig geschriebenen Headless-Browser) ersetzt. Er verbraucht nur 24 MB statt 200 MB RAM und ist 11-mal schneller. Nur bei starken Anti-Bot-Maßnahmen wechsle ich dynamisch auf den schwereren Browser Camoufox. Das hält entscheidende Server-Ressourcen für die Judge- und Optimierungs-Modelle frei.

Kern-Erkenntnisse: