Wie lässt sich die 'Faithfulness' einer Antwort technisch durch eine iterative Chain-of-Verification (CoVe) Pipeline quantitativ steigern?

Die Steigerung der Faithfulness erfolgt durch die Zerlegung der Antwort in atomare Behauptungen und deren systematische Validierung. Wir implementieren die CoVe-Pipeline in vier technischen Phasen:

  1. Baseline-Antwort: Das Modell generiert eine initiale Antwort basierend auf dem bereitgestellten Kontext.
  2. Verifikationsplanung: Aus der Baseline werden spezifische Prüffragen extrahiert, die jede faktische Aussage isoliert hinterfragen.
  3. Unabhängige Verifikation: Diese Fragen werden separat beantwortet. Dabei erhält das Modell keinen Zugriff auf die Baseline-Antwort, um Bestätigungsfehler (Confirmation Bias) zu vermeiden.
  4. Finale Revision: Die ursprüngliche Antwort wird unter Einbezug der Verifikationsergebnisse korrigiert.

Zur quantitativen Messung setzen wir Metriken ein, die auf Natural Language Inference (NLI) basieren. Die Faithfulness wird als Quotient aus verifizierten und gesamten Behauptungen definiert.

PhaseTechnischer FokusMetrik zur Messung
BaselineGenerative AccuracyPerplexity / Token-Wahrscheinlichkeit
VerificationFact ExtractionRecall der Behauptungen
ValidationGroundingNLI Entailment Score
RevisionFaithfulness Gain$\Delta$ Faithfulness Score

Die iterative Steigerung wird durch eine Feedback-Schleife erreicht. Wenn der Faithfulness-Score unter einem definierten Schwellenwert liegt, wird die Pipeline für die fraglichen Segmente erneut durchlaufen. Hierbei integrieren wir präzise Data Engineering Prozesse, um die Qualität der Retrieval-Dokumente zu optimieren, da die Verifikation nur so valide ist wie die zugrunde liegende Datenquelle.

Die quantitative Steigerung erfolgt mathematisch durch die Minimierung der Halluzinationsrate pro Iteration. Wir messen dies über den Vergleich der Baseline-Antwort mit der finalen Antwort mittels RAGAS-Frameworks, wobei die Faithfulness-Metrik prüft, ob alle Aussagen der Antwort durch den Kontext gestützt werden.

Wir empfehlen, CoVe nicht als isoliertes Modul, sondern als Teil eines automatisierten Evaluation-Loops zu betreiben. Die reine Erhöhung der Iterationszahl führt ab einem bestimmten Punkt zu sinkenden Grenznutzen und steigenden Latenzen. Die effizienteste Lösung ist die Kombination aus CoVe und einem strikten NLI-basierten Filter, der Antworten bei einer Faithfulness unter 0,8 automatisch verwirft oder zur manuellen Prüfung markiert.

Sergej Wiens

Sergej Wiens

Gründer & Software Architekt