RL Feedback-Loop: Newsletter-Judge

17.03.2026 · ai-tools

Meine automatisierte Newsletter-Pipeline lieferte zwar korrekte Zusammenfassungen, aber mir fehlte eine Metrik, um den handlungsorientierten Nutzen für meine Arbeit zu messen. Um nicht blind an Prompts zu schrauben, habe ich einen LLM-as-Judge-Ansatz mit einem automatisierten Feedback-Loop integriert, der bei Bedarf die eigenen Anweisungen optimiert.

Der LLM-as-Judge Ansatz & Feedback-Loop

Etwa 30 Minuten nach der Textgenerierung bewertet ein zweites, logikstarkes Modell die Zusammenfassungen auf einer Skala von 0 bis 10 in den Dimensionen Relevance, Actionability, Quality und Value. Eine zentrale Erkenntnis: Das Judge-Modell darf nicht das generierende Modell sein, um eine "Self-Assessment-Inflation" zu vermeiden. Die erste Messung bestätigte mein Bauchgefühl datenbasiert: Die Dimension "Actionability" war mit durchschnittlich 5.1 Punkten der klare Schwachpunkt.

Um diesen Wert zu verbessern, sind meine Prompts nun strikt versioniert. Jeden Sonntag berechnet ein Job den durchschnittlichen Score der Woche. Fällt dieser unter 6.5, greift die Auto-Optimierung: Ein Meta-Prompt analysiert die Kritikpunkte des Judges und schreibt eine verbesserte Version des Basis-Prompts, die in der Folgewoche automatisch genutzt wird.

Schlanke Infrastruktur mit Lightpanda

Damit solche Evaluierungs-Loops nicht die Serverkosten sprengen, muss die Datengewinnung extrem effizient sein. Bisherige Headless-Browser wie Chrome fraßen über 200 MB RAM pro Instanz. Ich bin deshalb auf Lightpanda umgestiegen – einen in Zig geschriebenen Headless-Browser.

Die Ergebnisse: Lightpanda benötigt in meinem Setup nur noch 24 MB RAM, ist etwa 11-mal schneller beim Extrahieren von Webseiten und bringt einen nativen MCP-Server (Model Context Protocol) mit. Ich fahre nun eine Dual-Browser-Strategie: Lightpanda ist der Standard für alle Scraping-Workflows. Nur bei aggressiven Anti-Bot-Maßnahmen weicht das System dynamisch auf den schwereren, getarnten Browser Camoufox aus.

Kernerkenntnisse für Agenten-Setups: * Nutze immer ein separates, stärkeres Modell zur Evaluation deiner KI-Outputs, um Bias zu vermeiden. * Verknüpfe LLM-Metriken direkt mit einer versionierten Auto-Optimierung deiner Prompts für kontinuierliche Verbesserung.