← Thomas Winkler

Docling PDF-Extraktions-Microservice

14.04.2026 · ai-tools

Bei der Arbeit mit RAG-Systemen und LLMs sind PDFs mit Tabellen und mehrspaltigen Layouts oft ein echter Endgegner. Standard-Text-Extraktoren zerstören die Struktur, was unweigerlich zu Halluzinationen der KI und einem massiv erhöhten Token-Verbrauch führt. Um dieses Problem architektonisch sauber zu lösen, habe ich mein Setup umgebaut.

Docling als zentraler Microservice

Anstatt teure kommerzielle APIs zu nutzen, die bei internen Dokumenten Datenschutzfragen aufwerfen, habe ich mich für "Docling" entschieden. Das Open-Source-Projekt von IBM analysiert das visuelle Layout von PDFs und erkennt Tabellen mit extrem hoher Genauigkeit. Das Resultat wird als sauberes Markdown ausgegeben – das ideale Format für LLMs.

Um diese Logik nicht in jedes meiner KI-Tools einzeln einbauen zu müssen, habe ich Docling in einen Docker-Container verpackt und als REST-API auf meinem Server bereitgestellt. Verschiedene "Consumer", wie mein Tool für automatisierte Compliance-Checks oder meine Wissensdatenbank, schicken ihre PDFs nun einfach per API-Call an diesen zentralen Service.

Für die nötige Ausfallsicherheit sorgt ein transparenter Fallback-Mechanismus: Antwortet der Docling-Service nicht rechtzeitig, greifen die aufrufenden Tools automatisch auf einfache lokale Parser (wie pdf-parse) zurück. Die Extraktionsqualität ist dann für diesen Durchlauf zwar geringer, aber der Prozess bricht nicht ab.

Weniger Token durch saubere Struktur

Die wichtigste Erkenntnis aus diesem Architektur-Wechsel ist die drastische Auswirkung auf den Token-Verbrauch. Durch die saubere Markdown-Formatierung, insbesondere bei tabellenreichen PDFs, konnte ich bei der anschließenden Verarbeitung durch das LLM zwischen 20 % und 40 % der Token einsparen.

Der Grund ist simpel: Liest das LLM eine sauber formatierte Markdown-Tabelle, braucht es im Prompt deutlich weniger Kontext-Instruktionen, um die ursprüngliche Datenstruktur zu erraten. Das Rauschen im Text nimmt ab, die Informationsdichte steigt. Das macht die nachgelagerten KI-Schritte nicht nur kostengünstiger, sondern auch signifikant schneller und präziser.