Vault-Intelligence Hybrid-Reranking (RRF)
Um meine Wissensdatenbank für RAG (Retrieval-Augmented Generation) verlässlich nutzbar zu machen, stieß die reine semantische Vektorsuche an ihre Grenzen: Sie verstand zwar Konzepte, scheiterte aber an exakten Akronymen oder Fehlermeldungen. Die Lösung ist eine Hybrid Search, die das semantische Verständnis mit der Präzision klassischer Stichwortsuche kombiniert.
Reciprocal Rank Fusion (RRF) als Brücke
In meinem Setup führe ich nun bei jeder Abfrage zwei Suchen parallel aus: eine Keyword-Suche (FTS5/BM25) und eine semantische Suche (Gemini Embeddings). Die Herausforderung dabei ist, die völlig unterschiedlichen Ergebnis-Scores dieser Systeme sinnvoll zu vereinen.
Hierfür nutze ich Reciprocal Rank Fusion (RRF). Dieser Algorithmus bewertet die gefundenen Dokumente nicht nach ihren nicht-vergleichbaren internen Scores, sondern nach ihrem Rang in der jeweiligen Top-100-Liste beider Suchmethoden. Ein Dokument, das sowohl bei der Keyword-Suche als auch bei der Semantik weit oben steht, erhält die höchste Gesamtpunktzahl. So entsteht eine perfekt ausbalancierte Master-Liste.
Technische Umsetzung & Transparenz
Ich habe dieses hybride Reranking fest in mein System integriert und als MCP-Tool (Model Context Protocol) namens hybrid_search bereitgestellt. Meine KI-Assistenten können Suchanfragen nun selbstständig durchführen und direkt mit Parametern wie Ordnern oder Tags eingrenzen. Für schnelle Suchen ohne Chatbot nutze ich das Ganze als CLI-Befehl (search --hybrid) direkt im Terminal.
Besonders wertvoll im Alltag ist die neue Transparenz der Suchergebnisse durch einfache Labels:
- [K+S]: Treffer durch exaktes Keyword und Semantik (die besten Ergebnisse).
- [K]: Nur die Keyword-Suche hat angeschlagen (perfekt für spezifische Akronyme).
- [S]: Reine inhaltliche Übereinstimmung ohne exakte Worttreffer.