← Thomas Winkler

Metadata-Enrichment bei Vault-Indexierung

16.03.2026 · ai-tools

Mit knapp 6.000 Dokumenten in meinem persönlichen Vault stieß die reine Volltextsuche an ihre Grenzen – eine Suche nach "Prompting" lieferte unstrukturierte Ergebnisse von Lesezeichen bis hin zu Strategiepapieren. Um dieses Chaos ohne manuellen Tagging-Aufwand zu strukturieren, habe ich eine automatisierte Pipeline für KI-gestütztes Metadaten-Enrichment gebaut.

Die Pipeline: Gemini Flash und Content-Hashing

Jedes Mal, wenn eine Notiz in meinen Suchindex aufgenommen wird, liest ein Sprachmodell im Hintergrund den Text und generiert strukturierte Metadaten: eine kurze Zusammenfassung, erkannte Entitäten (Firmen, Frameworks), die Sprache und eine übergeordnete Kategorie.

Die technische Umsetzung läuft über ein Skript, das die Notizen an eine API schickt. Dabei setze ich auf "Gemini Flash" – für diese simple Kategorisierung ist es rasend schnell, intelligent genug und praktisch kostenlos. Um API-Sperren bei der Massenverarbeitung zu vermeiden, greift ein Rate-Limit von 250 Millisekunden zwischen den Anfragen. Zusätzlich berechnet das System einen "Content-Hash" für jede Notiz. Dieser digitale Fingerabdruck stellt sicher, dass Dokumente nur dann erneut zur KI geschickt werden, wenn sich ihr Text auch wirklich verändert hat.

Die wichtigste Erkenntnis: Strikte Taxonomie

Der größte Hebel für ein funktionierendes System war die Limitierung der Kategorien. Lässt man ein LLM frei passende Tags erfinden, endet man mit hunderten nutzlosen Synonymen (z.B. "KI", "Künstliche Intelligenz", "AI"). Ich zwinge die KI über den Prompt, jede Notiz exakt einer von 10 fest definierten Kategorien (wie Tech, AI, Project, Tool) zuzuordnen.

Ein erster Testlauf mit 500 Notizen lief absolut fehlerfrei durch. Der sofortige Mehrwert in der Praxis: Ich kann meine Suchfunktionen und KI-Assistenten (RAG) nun präzise filtern und mir beispielsweise nur noch Ergebnisse aus der Kategorie "Project" anzeigen lassen.

Wenn du ein ähnliches Setup aufbauen möchtest: * Nutze eine harte Taxonomie: Definiere 8-12 feste Kategorien, die deine Arbeitsrealität abbilden, und verbiete der KI, eigene Tags zu erfinden. * Kleine Modelle reichen: Nutze für das Metadaten-Enrichment schnelle, günstige Modelle (Gemini Flash, Claude Haiku) und spare Ressourcen durch intelligentes Caching (Content-Hashes).