← Thomas Winkler

Stagehand SDK fuer Browser-Automation

31.03.2026 · ai-tools

Mein automatisierter "LinkedIn-Monitor" sammelt Branchen-News für mein KI-Setup, doch der primäre Scraper (Camoufox) scheiterte zuletzt immer wieder an Layout-Änderungen oder Timeouts. Als verlässlichen Plan B habe ich deshalb das Stagehand SDK in mein Node.js-Backend integriert.

Stagehand als robuster Fallback

Stagehand basiert auf Playwright und Chromium und ist eigentlich für KI-gesteuerte Web-Navigation gedacht. Wenn Camoufox nun keine Daten liefert, triggert mein Backend automatisch das Stagehand-Skript.

Um Bot-Erkennungen zu umgehen, waren zwei technische Kniffe nötig:

  • Ich route den Traffic von Stagehand über einen SOCKS5-Proxy (mein Tailscale-Netzwerk), um ihn über einen regulären Internetanschluss auszuleiten.
  • Ich übergebe Stagehand das gültige Session-Cookie (li_at), das ich ohnehin für Camoufox verwalte. Der Browser ist somit sofort eingeloggt und hat eine glaubhafte Historie.
  • Datenextraktion ohne LLM

    Das Interessanteste an diesem Setup ist, dass ich Stagehands Kernfeature – die LLM-gestützte Datenextraktion – gar nicht nutze. Die Struktur der Beiträge ist vorhersehbar genug, sodass ich meine reguläre Code-Logik fast 1:1 portieren konnte.

    Der Verzicht auf das LLM beim reinen Scraping macht den Fallback rasend schnell, absolut deterministisch (keine Halluzinationen) und spart API-Kosten. Die KI kommt in meiner Pipeline erst im nächsten Schritt zum Einsatz, um die gesammelten Beiträge zu analysieren und zusammenzufassen.

    Zwei Erkenntnisse für robuste Automatisierungen: * Resilienz einbauen: APIs ändern sich, Scraper brechen. Baue immer "Wenn-Dann"-Ketten mit einem Fallback-Tool. * KI nur dort, wo sie echten Wert stiftet: Für das simple Einsammeln strukturierter Daten ist klassischer Code meist zuverlässiger und billiger als ein LLM.