OpenClaw Architektur-Review + Poisoning-Defense
Mein KI-Agent "OpenClaw" liest autonom Webseiten, überwacht Feeds und fasst externe Daten zusammen. Dabei stieß ich auf ein kritisches Sicherheitsproblem: Was passiert, wenn eine externe Quelle versteckte Prompt-Injection-Befehle enthält und den Agenten anweist, Systemdateien zu überschreiben?
Defense in Depth: Harte Grenzen statt weicher Prompts
Um Data Poisoning zu verhindern, habe ich die Architektur meines Setups grundlegend überarbeitet. Die wichtigste Erkenntnis vorweg: Ein kompromittiertes LLM ignoriert Prompts. Sicherheit muss auf Betriebssystemebene passieren.
Ich habe dem Agenten ein eigenes, stark eingeschränktes Benutzerkonto zugewiesen. Zentrale Instruktionsdateien wie die BOOT.md gehören nun dem Systemadministrator (root) und sind für den KI-Agenten strikt read-only. Er kann seine Grundregeln lesen, aber unter keinen Umständen verändern.
Auf Prompt-Ebene arbeite ich ergänzend mit einer Write-Scope-Whitelist. Anstatt dem Agenten zu sagen, wo er nicht schreiben darf, habe ich ihm exakt sieben Ordner definiert, in denen er Dateien erstellen darf. Für alles andere gilt ein explizites Verbot.
Provenienz und Datenbereinigung
Zusätzlich habe ich eine globale Provenienz-Pflicht eingeführt. Wenn der Agent Daten aus dem Internet holt, werden diese intern mit trust_level: external markiert, damit das System weiß, dass diese Informationen potenziell manipuliert sind.
Bevor diese externen Inhalte an das zentrale LLM gehen, durchlaufen sie eine strenge Sanitization: Ein vorgeschaltetes Skript entfernt HTML-Tags, verdächtige Sonderzeichen und typische Befehlsstrukturen aus dem rohen Text. Erst der bereinigte Inhalt wird zur Verarbeitung übergeben.
Der Agent arbeitet weiterhin autonom, aber mutwillige Ausbruchsversuche prallen nun ab. Für jedes KI-Setup gilt: * Verlasse dich für Sicherheit nie auf Prompts allein, sondern setze strikte Dateisystem-Rechte (Read-Only für System-Prompts). * Markiere externe Datenquellen als unsicher und bereinige sie, bevor sie das Haupt-LLM erreichen.