Stagehand SDK fuer Browser-Automation
Mein automatisierter "LinkedIn-Monitor" sammelt Branchen-News für mein KI-Setup, doch der primäre Scraper (Camoufox) scheiterte zuletzt immer wieder an Layout-Änderungen oder Timeouts. Als verlässlichen Plan B habe ich deshalb das Stagehand SDK in mein Node.js-Backend integriert.
Stagehand als robuster Fallback
Stagehand basiert auf Playwright und Chromium und ist eigentlich für KI-gesteuerte Web-Navigation gedacht. Wenn Camoufox nun keine Daten liefert, triggert mein Backend automatisch das Stagehand-Skript.
Um Bot-Erkennungen zu umgehen, waren zwei technische Kniffe nötig:
li_at), das ich ohnehin für Camoufox verwalte. Der Browser ist somit sofort eingeloggt und hat eine glaubhafte Historie.Datenextraktion ohne LLM
Das Interessanteste an diesem Setup ist, dass ich Stagehands Kernfeature – die LLM-gestützte Datenextraktion – gar nicht nutze. Die Struktur der Beiträge ist vorhersehbar genug, sodass ich meine reguläre Code-Logik fast 1:1 portieren konnte.
Der Verzicht auf das LLM beim reinen Scraping macht den Fallback rasend schnell, absolut deterministisch (keine Halluzinationen) und spart API-Kosten. Die KI kommt in meiner Pipeline erst im nächsten Schritt zum Einsatz, um die gesammelten Beiträge zu analysieren und zusammenzufassen.
Zwei Erkenntnisse für robuste Automatisierungen: * Resilienz einbauen: APIs ändern sich, Scraper brechen. Baue immer "Wenn-Dann"-Ketten mit einem Fallback-Tool. * KI nur dort, wo sie echten Wert stiftet: Für das simple Einsammeln strukturierter Daten ist klassischer Code meist zuverlässiger und billiger als ein LLM.