Welche Metriken bieten Frameworks wie RAGAS oder TruLens zur quantitativen Evaluierung der Faithfulness und Answer Relevance?

RAGAS und TruLens implementieren die Evaluierung von RAG-Systemen primär über LLM-basierte Metriken, die ohne menschliche Gold-Standard-Datensätze auskommen. Beide Frameworks nutzen das Prinzip des "LLM-as-a-Judge", um die Qualität der Generierung quantifizierbar zu machen.

Faithfulness (Treue) Diese Metrik misst, inwieweit die Antwort ausschließlich auf dem abgerufenen Kontext basiert, um Halluzinationen zu identifizieren. RAGAS zerlegt die Antwort in einzelne Aussagen (Claims) und prüft jede einzelne gegen den Kontext. Die Faithfulness ist das Verhältnis der verifizierten Aussagen zur Gesamtzahl der Aussagen. TruLens bezeichnet diesen Aspekt als "Groundedness" und nutzt einen LLM-Judge, der bewertet, ob die Antwort durch die bereitgestellten Dokumente gestützt wird.

Answer Relevance (Antwortrelevanz) Hier wird geprüft, ob die Antwort die ursprüngliche Nutzerfrage tatsächlich beantwortet, unabhängig davon, ob die Informationen im Kontext vorhanden waren. RAGAS generiert aus der gegebenen Antwort mehrere hypothetische Fragen und misst die Ähnlichkeit dieser Fragen zur ursprünglichen Query, meist via Cosine Similarity von Embeddings. TruLens bewertet die Relevanz direkt durch einen Prompt, der das LLM anweist, die Antwort im Verhältnis zur Frage zu scoren.

MetrikRAGAS MechanismusTruLens MechanismusZielsetzung
FaithfulnessClaim-VerificationGroundedness ScoreVermeidung von Halluzinationen
Answer RelevanceHypothetische FragenLLM-basierte BewertungPräzision der Antwort

Die Implementierung dieser Metriken erfordert eine stabile Datenpipeline, insbesondere im Bereich Data Engineering, um die Kontextfenster optimal zu füllen und die Evaluierung reproduzierbar zu machen. Während RAGAS stärker auf eine granulare Zerlegung der Antworten setzt, bietet TruLens durch die "RAG Triad" eine integrierte Sicht auf die Interdependenz zwischen Query, Kontext und Antwort.

Wir empfehlen den Einsatz von RAGAS für die initiale Optimierung der Prompt-Strategie aufgrund der detaillierten Claim-Analyse, während TruLens besser für das kontinuierliche Monitoring im produktiven Betrieb geeignet ist.

Sergej Wiens

Sergej Wiens

Gründer & Software Architekt