Wie lässt sich mittels Hypothetical Document Embeddings (HyDE) das Problem des 'Vocabulary Mismatch' zwischen Nutzeranfrage und Dokumentenindex technisch überbrücken?

HyDE überbrückt den Vocabulary Mismatch, indem es die Asymmetrie zwischen einer kurzen Nutzeranfrage und einem ausführlichen Dokument im Vektorindex auflöst. In klassischen RAG-Systemen führt die direkte Vektorisierung einer Frage oft zu suboptimalen Ergebnissen, da die semantische Repräsentation einer Frage (Query) sich stark von der eines Antwortdokuments (Document) unterscheidet.

Der technische Workflow gliedert sich in drei Schritte:

  1. Hypothesen-Generierung: Ein Large Language Model (LLM) erhält die Nutzeranfrage und erstellt eine plausible, wenn auch faktisch nicht notwendigerweise korrekte Antwort. Dieses "hypothetische Dokument" imitiert die Struktur und Terminologie der tatsächlich im Index gespeicherten Daten.
  2. Embedding-Transformation: Dieses generierte Dokument wird durch ein Embedding-Modell in einen Vektor transformiert.
  3. Vektorsuche: Die Suche im Index erfolgt nicht mit dem ursprünglichen Query-Vektor, sondern mit dem Vektor des hypothetischen Dokuments.
MerkmalStandard Vector SearchHyDE Approach
Input für EmbeddingKurze NutzeranfrageGeneriertes Antwortdokument
Vektor-RaumFrage $\rightarrow$ Dokument (Asymmetrisch)Dokument $\rightarrow$ Dokument (Symmetrisch)
TerminologieBegrenzt auf Query-BegriffeErweitert durch LLM-Wissen
FehlerrisikoNiedriger Recall bei FachbegriffenHalluzinationen im hypothetischen Text

Durch diesen Prozess wird die Anfrage in die "Sprache" des Zielindex übersetzt. Das LLM fungiert als semantische Brücke, die fehlende Fachbegriffe ergänzt und die Struktur der gesuchten Information imitiert. Für die Implementierung solcher Pipelines ist ein präzises Data Engineering notwendig, um die Latenz der zusätzlichen LLM-Aufrufe zu optimieren und die Qualität der Embeddings sicherzustellen.

Wir empfehlen den Einsatz von HyDE insbesondere in Domänen mit hoher terminologischer Varianz oder bei sehr kurzen Nutzeranfragen. Da die Qualität der Suche direkt von der Fähigkeit des LLMs abhängt, ein realistisches Dokumenten-Layout zu simulieren, sollte HyDE immer mit einem Re-Ranking-Schritt (z. B. mittels Cross-Encodern) kombiniert werden, um potenzielle Halluzinationen im hypothetischen Dokument effektiv zu filtern.

Sergej Wiens

Sergej Wiens

Gründer & Software Architekt