Hersteller (OMRC) als erstes Feld in Lieferantenidentifikation
Beim Extrahieren von Produktdaten aus unstrukturierten Dokumenten verwechselte meine KI regelmäßig Zwischenhändler und tatsächliche Produzenten. Die Lösung war kein neues Modell, sondern eine simple Änderung im JSON-Schema: Ich habe den Hersteller (OMRC) als allererstes Feld definiert.
Das Problem der autoregressiven Generierung
Zuvor fragte mein Schema zuerst den "Lieferanten" ab, dann die Bauteilnummer und irgendwann weiter unten den "Hersteller". Das LLM fand das Logo eines Distributors ganz oben im PDF, trug ihn sofort als Lieferant ein und interpretierte den restlichen Text passend zu diesem Distributor. Der eigentliche Hersteller, der für die technische Spezifikation viel wichtiger ist, ging im Rauschen unter oder wurde falsch zugeordnet.
Harte Fakten als Anker setzen
Moderne LLMs generieren Token für Token basierend auf dem gesamten Text, der davor steht. Wenn ich das Schema umdrehe und als allererstes den eindeutigen Hersteller-Referenzcode (OMRC - Original Manufacturer Reference Code) abfrage, zwinge ich die KI, das Marketing-Rauschen der Distributoren zu ignorieren.
Sobald dieser harte Fakt als erstes Feld im Output steht, dient er der KI als Kontext für alle folgenden Felder. Füllt die KI danach das Feld "Lieferant" aus, "weiß" sie bereits präzise, wer der Hersteller ist und kann logisch schlussfolgern, dass die Firma auf dem Briefkopf nur der Händler sein kann. Die Fehlerquote bei der Zuordnung sank durch diesen simplen Trick drastisch.
Die wichtigste Erkenntnis für dein Setup: * Baue Datenstrukturen für KIs nicht wie für menschliche Leser (von Makro zu Mikro) auf. * Die Reihenfolge der Felder im Output-Schema steuert die Logik: Lass die KI zuerst harte, eindeutige Fakten extrahieren, damit diese als Leitplanke für weichere Datenpunkte dienen.