Welche Vor- und Nachteile bieten Cross-Encoder gegenüber Bi-Encodern beim Re-Ranking von Dokumenten in einer hybriden Suche?

Bi-Encoder verarbeiten Abfrage und Dokument unabhängig voneinander. Sie transformieren beide Eingaben in einen gemeinsamen Vektorraum, wobei die Ähnlichkeit über die Kosinus-Ähnlichkeit oder das Skalarprodukt bestimmt wird. Dies ermöglicht eine extrem schnelle Suche in Millionen von Dokumenten, da die Dokumenten-Embeddings vorab berechnet und in einer Vektordatenbank gespeichert werden können.

Cross-Encoder hingegen analysieren Abfrage und Dokument gleichzeitig in einem einzigen Modellaufruf. Durch den Full-Attention-Mechanismus kann das Modell die Interaktionen zwischen den einzelnen Token der Abfrage und des Dokuments direkt bewerten. Dies führt zu einer deutlich höheren Präzision, ist jedoch rechenintensiv, da jedes Paar einzeln durch das Modell geschleust werden muss.

MerkmalBi-EncoderCross-Encoder
LatenzSehr niedrig (Millisekunden)Hoch (Hunderte Millisekunden)
SkalierbarkeitHoch (via Vector Index)Niedrig (nur für Top-K)
GenauigkeitModeratSehr hoch
VorberechnungMöglich (Indexierung)Nicht möglich

In einer hybriden Suche nutzen wir Bi-Encoder (oft kombiniert mit BM25) für die erste Phase der Informationsbeschaffung (Retrieval), um die Menge der Kandidaten von Millionen auf etwa 50 bis 100 Dokumente zu reduzieren. In der zweiten Phase setzen wir den Cross-Encoder ein, um diese kleine Menge präzise zu sortieren. Die Implementierung solcher Pipelines erfordert ein präzises Data Engineering, um die Latenzzeiten für den Endnutzer gering zu halten.

Während Bi-Encoder die Breite der Suche abdecken, verfeinert der Cross-Encoder die Relevanz. Ohne diesen zweiten Schritt bleiben Nuancen in der Semantik oft unberücksichtigt, was besonders bei komplexen Fachfragen zu suboptimalen Ergebnissen führt. Die Rechenlast des Cross-Encoders ist dabei akzeptabel, solange er nur auf die bereits gefilterte Teilmenge der Dokumente angewendet wird.

Für produktive RAG-Systeme ist die Kombination aus Bi-Encoder-Retrieval und Cross-Encoder-Re-Ranking die einzige technisch sinnvolle Architektur, da sie die notwendige Balance zwischen Antwortgeschwindigkeit und semantischer Präzision herstellt.

Sergej Wiens

Sergej Wiens

Gründer & Software Architekt