Wie lässt sich eine Self-RAG-Architektur aufbauen, bei der das Modell durch spezielle Reflexions-Token autonom entscheidet, ob ein Retrieval-Schritt notwendig ist?

Die Implementierung einer Self-RAG-Architektur basiert auf der Erweiterung des Vokabulars des Large Language Models (LLM) um spezifische Reflexions-Token. Diese Token fungieren als Steuersignale, die den Kontrollfluss zwischen der Textgenerierung und dem Retrieval-Prozess regeln.

Der Prozess folgt einem iterativen Zyklus:

  1. Bedarfsanalyse: Das Modell analysiert die Anfrage und generiert einen Token, der angibt, ob externes Wissen benötigt wird.
  2. Retrieval-Trigger: Erkennt die Applikationsschicht den Token [Retrieve], wird die Generierung pausiert und eine Suche in der Vektordatenbank gestartet.
  3. Relevanzprüfung: Das Modell bewertet die abgerufenen Dokumente mit einem Token wie [Relevant] oder [Irrelevant].
  4. Synthese und Verifikation: Die finale Antwort wird unter Verwendung der validierten Informationen erstellt und durch einen Token wie [Supported] auf Faktentreue geprüft.
TokenFunktionSystemreaktion
[Retrieve]Bedarf an externen DatenTrigger Retrieval-Pipeline
[Relevant]Kontext ist nützlichIntegration in den Prompt
[Irrelevant]Kontext ist unbrauchbarErneuter Retrieval-Versuch oder Verzicht
[Supported]Antwort ist belegtAbschluss der Generierung

Für die technische Umsetzung nutzen wir entweder ein Fine-Tuning (SFT) auf einem spezialisierten Datensatz, der diese Token-Sequenzen enthält, oder ein präzises Few-Shot-Prompting in Kombination mit einem Custom-Sampler. Letzterer unterbricht den Token-Stream bei Erkennung der Steuer-Token, um die entsprechende Logik in der Applikationsschicht auszuführen. Eine stabile Performance setzt dabei ein präzises Data Engineering voraus, damit die Vektordatenbank Treffer liefert, die das Modell auch als [Relevant] markieren kann.

Wir empfehlen den Verzicht auf reine Prompting-Ansätze bei komplexen Anwendungsfällen. Nur durch gezieltes Fine-Tuning lernt das Modell die präzise Korrelation zwischen internen Wissenslücken und dem [Retrieve]-Token. Ohne dieses Training neigen Modelle zu "Over-Retrieval" oder ignorieren die Reflexions-Logik vollständig, was die Latenz erhöht, ohne die Antwortqualität zu steigern.

Sergej Wiens

Sergej Wiens

Gründer & Software Architekt