← Thomas Winkler

Vault-Intelligence Hybrid-Reranking (RRF)

16.03.2026 · ai-tools

Um meine Wissensdatenbank für RAG (Retrieval-Augmented Generation) verlässlich nutzbar zu machen, stieß die reine semantische Vektorsuche an ihre Grenzen: Sie verstand zwar Konzepte, scheiterte aber an exakten Akronymen oder Fehlermeldungen. Die Lösung ist eine Hybrid Search, die das semantische Verständnis mit der Präzision klassischer Stichwortsuche kombiniert.

Reciprocal Rank Fusion (RRF) als Brücke

In meinem Setup führe ich nun bei jeder Abfrage zwei Suchen parallel aus: eine Keyword-Suche (FTS5/BM25) und eine semantische Suche (Gemini Embeddings). Die Herausforderung dabei ist, die völlig unterschiedlichen Ergebnis-Scores dieser Systeme sinnvoll zu vereinen.

Hierfür nutze ich Reciprocal Rank Fusion (RRF). Dieser Algorithmus bewertet die gefundenen Dokumente nicht nach ihren nicht-vergleichbaren internen Scores, sondern nach ihrem Rang in der jeweiligen Top-100-Liste beider Suchmethoden. Ein Dokument, das sowohl bei der Keyword-Suche als auch bei der Semantik weit oben steht, erhält die höchste Gesamtpunktzahl. So entsteht eine perfekt ausbalancierte Master-Liste.

Technische Umsetzung & Transparenz

Ich habe dieses hybride Reranking fest in mein System integriert und als MCP-Tool (Model Context Protocol) namens hybrid_search bereitgestellt. Meine KI-Assistenten können Suchanfragen nun selbstständig durchführen und direkt mit Parametern wie Ordnern oder Tags eingrenzen. Für schnelle Suchen ohne Chatbot nutze ich das Ganze als CLI-Befehl (search --hybrid) direkt im Terminal.

Besonders wertvoll im Alltag ist die neue Transparenz der Suchergebnisse durch einfache Labels:

Meine wichtigste Erkenntnis: Für ein wirklich verlässliches RAG-Setup reicht Semantik allein nicht aus. Erst die Fusion mit der klassischen Volltextsuche schließt die Lücke zwischen abstrakter Bedeutung und exaktem Wortlaut.