Welche Metriken zur Messung der 'Semantic Drift' sind in produktiven LLM-Systemen sinnvoll, um ein Retraining der Embeddings-Modelle zu triggern?

Zur Identifikation von Semantic Drift in produktiven RAG-Systemen setzen wir auf eine Kombination aus statistischen Distanzmaßen und Performance-Indikatoren. Da Embeddings hochdimensionale Vektoren sind, lässt sich Drift nicht durch einfache Mittelwerte, sondern nur durch die Analyse der Vektorraum-Verteilung feststellen.

MetrikMessmethodeTrigger-Logik
Cosine Similarity DistributionVergleich der Verteilung der Top-k Ähnlichkeitswerte über Zeitfenster.Signifikante Verschiebung des Medians nach unten.
Centroid ShiftBerechnung des Schwerpunkts (Centroid) von Themenclustern.Euklidische Distanz zwischen altem und neuem Centroid über Schwellenwert X.
KL-DivergenzMessung der Differenz zwischen zwei Wahrscheinlichkeitsverteilungen der Embeddings.Anstieg der Divergenz über einen definierten Baseline-Wert.
Recall@K (Gold Set)Regelmäßige Evaluierung eines statischen Testsets mit Ground Truth.Abfall der Trefferquote unter einen definierten Prozentsatz.

Die Überwachung der Cosine Similarity Distribution gibt Aufschluss darüber, ob die Abfragen generell "weiter weg" von den Dokumenten rücken. Ein sinkender Median deutet darauf hin, dass das Modell neue Begriffe oder Kontexte nicht mehr präzise im Vektorraum verortet.

Der Centroid Shift ist nützlich, wenn wir spezifische Domänen-Cluster überwachen. Wenn sich die Repräsentation eines Fachbegriffs verschiebt, wandert der Cluster-Schwerpunkt. Hier implementieren wir oft spezialisierte Data Engineering Pipelines, um diese Berechnungen asynchron zu den User-Requests durchzuführen und die Rechenlast zu optimieren.

Die KL-Divergenz (Kullback-Leibler) erlaubt es uns, die gesamte Form der Vektorverteilung zu vergleichen. Ein Anstieg zeigt an, dass die Struktur des latenten Raums nicht mehr mit den aktuellen Daten korrespondiert. In Verbindung mit einem Recall@K-Test auf einem kuratierten Gold-Set lässt sich so validieren, ob die statistische Drift tatsächlich zu einer Verschlechterung der Antwortqualität führt.

Wir empfehlen, nicht bei jedem statistischen Drift-Signal ein vollständiges Retraining des Modells zu starten, da dies ressourcenintensiv ist. Stattdessen sollte primär ein Fine-Tuning der Projektionsschicht oder der Einsatz von Adaptern erfolgen. Ein vollständiges Retraining ist erst dann ratsam, wenn die Recall-Rate auf dem Gold-Set trotz Hyperparameter-Optimierung der Retrieval-Strategie dauerhaft unter die Akzeptanzschwelle fällt.

Sergej Wiens

Sergej Wiens

Gründer & Software Architekt