← Thomas Winkler

Document Ingestion Pipeline für Vault-Intelligence

17.03.2026 · ai-tools

Bisher waren PDFs, Word-Dokumente und HTML-Dateien für mein persönliches KI-Setup quasi unsichtbar. Um diese Medienbrüche zu beenden, habe ich eine automatisierte Document Ingestion Pipeline gebaut, die Dokumente verarbeitet und für meinen KI-Assistenten nahtlos durchsuchbar macht.

Die Ingestion Pipeline

Über ein simples Drag-and-Drop-Webinterface lade ich meine Dateien hoch. Das System extrahiert den Text und zerkleinert ihn über "Sliding-Window Chunking" in Blöcke von etwa 800 Tokens. Die Überlappung der Chunks ist hierbei ein entscheidendes Detail, damit semantische Zusammenhänge an den Schnittstellen nicht verloren gehen.

Anschließend generiert ein LLM eine prägnante Zusammenfassung und legt automatisch eine neue Notiz mit Metadaten in meiner Wissensdatenbank an, die auf die Textblöcke verlinkt. Um den Server nicht zu überladen, löscht ein Hintergrundprozess die Originaldateien nach sieben Tagen.

Die Hybrid-Suche als Schlüssel

Die wichtigste Erkenntnis des Projekts: Eine reine semantische Suche (Vector Search) reicht nicht aus, da sie bei spezifischen Produktnamen oder internen Abkürzungen oft versagt. Deshalb setze ich auf eine Hybrid-Suche. Ich kombiniere eine schnelle FTS5-Volltextsuche für exakte Treffer mit der semantischen Suche (Gemini-Embeddings) für abstraktere Bedeutungen.

Um die Ergebnisse optimal zu vereinen, nutze ich RRF (Reciprocal Rank Fusion). Dieser Algorithmus verschmilzt in Echtzeit vier Quellen: die Volltext- und semantische Suche über meine eigenen Notizen sowie über die hochgeladenen Dokumenten-Chunks.

Damit mein KI-Assistent diese neue Datenbasis nutzen kann, habe ich abschließend ein MCP-Tool (Model Context Protocol) namens search_documents geschrieben. Wenn ich nun eine Frage zu einer alten Nutzerstudie stelle, entscheidet die KI selbstständig, das Tool aufzurufen und liefert präzise Antworten aus tief vergrabenen PDFs.