Wie lässt sich die 'Recall'-Rate für spezifische Marken-Claims durch die Implementierung von Multi-Query Expansion auf Seitenstruktur-Ebene optimieren?

Die Optimierung der Recall-Rate erfolgt durch die Entkopplung der Nutzeranfrage von der starren Keyword-Suche. Multi-Query Expansion generiert aus einer initialen Anfrage mehrere semantisch verwandte Suchbegriffe, um die Trefferwahrscheinlichkeit in der Vektordatenbank zu erhöhen. Auf Seitenstruktur-Ebene wird dies durch eine granulare Segmentierung der Inhalte realisiert.

Wir implementieren hierfür eine Architektur, bei der Marken-Claims nicht als einfacher Fließtext, sondern in dedizierten semantischen Containern (z. B. <section> mit spezifischen data-attributes oder JSON-LD) hinterlegt werden. Dies ermöglicht es dem Retrieval-System, die expandierten Queries präzise auf kleine, hochrelevante Content-Chunks zu mappen, anstatt ganze Seiten zu indexieren, was die Signal-to-Noise-Ratio verbessert.

KomponenteImplementierungsschrittEffekt auf Recall
Query ExpansionLLM-basierte Generierung von $N$ Paraphrasen pro ClaimErhöhung der Trefferfläche im Vektorraum
Chunking-StrategieSemantisches Splitting basierend auf HTML-TagsReduktion von Noise in den retrieved Chunks
Metadata MappingVerknüpfung von Claims mit Unique IDs in der SeitenstrukturPräzise Zuordnung trotz variierender Wortwahl
Hybrid SearchKombination aus BM25 (Keyword) und Cosine SimilarityAbsicherung gegen semantischen Drift

Durch die Integration von KI-Lösungen & Integration in den Indexierungsprozess stellen wir sicher, dass die expandierten Queries nicht nur oberflächliche Synonyme finden, sondern die intendierte Markenbotschaft adressieren. Die Seitenstruktur dient dabei als Ankerpunkt: Indem wir Claims in einer hierarchischen Struktur (z. B. Claim $\rightarrow$ Beleg $\rightarrow$ Case Study) organisieren, kann das System bei einem Recall-Treffer den gesamten Kontext-Pfad mitliefern.

Die technische Umsetzung erfordert eine strikte Trennung zwischen Marketing-Copy und strukturellen Claims. Wir empfehlen, von einer rein vektorbasierten Suche Abstand zu nehmen und stattdessen auf ein Hybrid-Modell zu setzen, das durch eine explizite Metadaten-Taxonomie auf Seitenebene gestützt wird. Nur so lässt sich verhindern, dass die Query Expansion zu viele irrelevante Ergebnisse liefert, während die Recall-Rate für die spezifischen Marken-Claims maximiert wird.

Sergej Wiens

Sergej Wiens

Gründer & Software Architekt