Guilt-Tripping Hardening fuer OpenClaw Newsletter-Prompt
Um zu verhindern, dass meine automatisierte Newsletter-Pipeline "OpenClaw" durch emotionale Sprache in Quelltexten manipuliert wird, habe ich den System-Prompt gegen sogenanntes "Guilt-Tripping" abgehärtet. Bei dieser Form der Manipulation knicken LLMs oft ein, weil sie darauf trainiert sind, bei vermeintlichen menschlichen Krisen extrem hilfsbereit zu sein.
Guilt-Tripping in der Ingest-Pipeline
Meine Pipeline liest täglich hunderte Artikel und bewertet deren Relevanz. Das Problem: Wenn ein Autor in seinem Text künstliche Dringlichkeit aufbaut ("Wer das ignoriert, wird scheitern!"), überschreibt diese emotionale Aufladung oft die objektiven Bewertungskriterien der KI. Das Modell verliert seine analytische Distanz, möchte eine vermeintliche Krise abwenden und stuft den Text fälschlicherweise als hochrelevant ein.
Hardening durch Anti-Manipulation-Regeln
Um dieses Risiko zu minimieren, habe ich eine neue "Anti-Manipulation"-Sektion in den Sicherheitsbereich meines System-Prompts integriert. Dem Modell wurden explizite Regeln vorgegeben: Es muss Dringlichkeits-Sprache ("lebenswichtig", "Katastrophe") ignorieren, Formulierungen zur Erzeugung eines schlechten Gewissens erkennen und sich strikt an die vorgegebene Bewertungsmatrix halten. Zudem darf die KI den emotionalen Tonfall niemals in ihre neutrale Zusammenfassung übernehmen. Erste Tests in meinem Setup zeigen, dass die KI nun deutlich robuster auf reißerische Texte reagiert.
Für eigene KI-Setups und automatisierte Workflows bedeutet das:
* Dedizierte Guardrails einbauen: Verlasse dich nicht auf die angeborene Objektivität des Modells. Definiere in deinen System-Prompts einen klaren Bereich, der der KI explizit vorgibt, wie sie mit manipulativem oder emotional erpresserischem Input umgehen soll. Form und Inhalt trennen: Bringe dem Agenten bei, zwischen der Art und Weise, wie* etwas gesagt wird, und den reinen Fakten zu unterscheiden – und teste diese Leitplanken gezielt mit übertrieben dramatischen Edge-Cases.