Wie lässt sich die semantische Kohärenz eines Dokuments technisch messen, um die Wahrscheinlichkeit einer vollständigen Zusammenfassung durch LLMs zu erhöhen?

Die technische Messung der semantischen Kohärenz erfolgt primär über die Analyse von Vektor-Einbettungen (Embeddings) und die Berechnung der Distanz zwischen aufeinanderfolgenden Textsegmenten. Wir setzen hierfür einen mehrstufigen Prozess ein, der die logische Verknüpfung von Informationen quantifizierbar macht.

Zunächst wird das Dokument in überlappende Fenster (Sliding Windows) unterteilt. Jedes Segment wird durch ein Embedding-Modell in einen hochdimensionalen Vektor transformiert. Die Kohärenz wird dann als Durchschnitt der Cosine Similarity zwischen dem Vektor von Segment $n$ und Segment $n+1$ berechnet. Ein starker Abfall dieser Werte deutet auf einen semantischen Bruch hin, der die Wahrscheinlichkeit erhöht, dass ein LLM beim Zusammenfassen wichtige Kontextbezüge verliert oder Informationen falsch gewichtet.

Zur präziseren Analyse nutzen wir folgende technische Ansätze:

MethodeTechnischer AnsatzZielmetrik
Cosine SimilarityVergleich von Sentence-EmbeddingsSkalarwert [0, 1] für lokale Kohärenz
Entity Graph AnalysisMapping von Entitäten und deren KookkurrenzenGraph-Dichte und Zentralitätsmaße
Perplexity-CheckMessung der Vorhersagbarkeit via kleinerem LMNiedrige Perplexity = hoher Fluss
Topic ModelingLDA oder BERTopic zur Cluster-AnalyseVerteilung der Themen-Cluster pro Abschnitt

Um die Qualität der Zusammenfassung zu steigern, implementieren wir diese Metriken in automatisierte Pipelines für KI-Lösungen & Integration. Wenn die gemessene Kohärenz unter einen definierten Schwellenwert fällt, wird das Dokument vor der Übergabe an das LLM durch eine automatisierte Strukturierung (z. B. Hinzufügen von Kontext-Ankern oder expliziten Übergängen) optimiert.

Die reine Messung der Kohärenz ist jedoch nur die halbe Lösung. Wir empfehlen, die semantische Kohärenz nicht nur passiv zu messen, sondern die Dokumentstruktur aktiv in ein hierarchisches Format (wie Markdown mit strikter Header-Logik) zu überführen. Ein Dokument mit hoher mathematischer Kohärenz, aber fehlender struktureller Hierarchie, führt bei LLMs dennoch häufiger zu Auslassungen. Die Kombination aus Vektor-basierten Kohärenz-Scores und einer strikten semantischen Formatierung ist der einzige Weg, um die Vollständigkeit von Zusammenfassungen bei komplexen Dokumenten technisch zu garantieren.

Sergej Wiens

Sergej Wiens

Gründer & Software Architekt