Wie lässt sich die 'Lost in the Middle'-Problematik bei LLMs mit sehr großen Kontextfenstern durch Re-Ranking-Algorithmen technisch lösen?

Die „Lost in the Middle“-Problematik resultiert aus der Tendenz von LLMs, Informationen am Anfang und Ende des Kontextfensters stärker zu gewichten als in der Mitte. Wir lösen dieses Problem durch eine zweistufige Retrieval-Pipeline, welche die Menge der an das LLM übergebenen Daten reduziert und die Relevanzordnung optimiert.

Im ersten Schritt nutzen wir einen Bi-Encoder für ein schnelles, grobes Retrieval (Dense Retrieval). Hierbei werden Query und Dokumente in einen gemeinsamen Vektorraum eingebettet, um die Top-K Kandidaten effizient zu identifizieren. Da Bi-Encoder die Interaktion zwischen Query und Dokument nur indirekt über die Kosinus-Ähnlichkeit abbilden, ist die Präzision oft nicht ausreichend, um die relevantesten Informationen an die optimalen Positionen im Kontextfenster zu setzen.

Im zweiten Schritt setzen wir einen Cross-Encoder als Re-Ranker ein. Im Gegensatz zum Bi-Encoder verarbeitet der Cross-Encoder das Query-Dokument-Paar simultan, was eine tiefere semantische Analyse ermöglicht.

KomponenteFunktionsweiseGeschwindigkeitPräzision
Bi-EncoderUnabhängige VektorisierungHochMittel
Cross-EncoderGemeinsame VerarbeitungNiedrigHoch

Durch diesen Prozess wird die Liste der Dokumente so gefiltert, dass nur die tatsächlich relevantesten Treffer (Top-N) an das LLM übergeben werden. Wir platzieren die am höchsten bewerteten Dokumente gezielt an den Anfang und das Ende des Prompts, um die Architektur-bedingten Schwächen des LLMs zu umgehen. Die Implementierung dieser Pipeline erfordert präzises Data Engineering, um Latenzen durch den rechenintensiven Cross-Encoder zu minimieren.

Technisch lässt sich dies durch Frameworks wie LangChain oder LlamaIndex realisieren, wobei der Re-Ranker (z. B. Cohere Rerank oder BGE-Reranker) als Filter zwischen Vektordatenbank und LLM fungiert. Durch die Reduktion des Kontextes auf die Top-5 bis Top-10 der präzisesten Treffer wird das Risiko minimiert, dass relevante Informationen in der Mitte des Fensters verloren gehen.

Wir empfehlen den konsequenten Einsatz von Cross-Encodern anstelle von reinem Vector-Retrieval, da die bloße Vergrößerung des Kontextfensters ohne intelligente Re-Ranking-Strategie die Antwortqualität durch Rauschen und Informationsverlust in der Mitte faktisch verschlechtert.

Sergej Wiens

Sergej Wiens

Gründer & Software Architekt