Welche technischen Ansätze zur Implementierung von 'Long-term Memory' (z. B. durch hierarchische Vektorspeicher) verhindern die Überlastung des Kontextfensters bei persistenten Agenten?

Wir verhindern die Überlastung des Kontextfensters bei persistenten Agenten durch die strikte Trennung von Working Memory (Kontextfenster) und Long-term Memory (externer Speicher). Der technische Kern ist die selektive Injektion von Informationen mittels Retrieval Augmented Generation (RAG), wobei die Auswahl der Daten durch verschiedene Speicherarchitekturen gesteuert wird.

Hierarchische Vektorspeicher optimieren diesen Prozess, indem sie Informationen in Abstraktionsebenen organisieren. Anstatt eine flache Liste von Embeddings zu durchsuchen, wird eine Struktur aus Zusammenfassungen (Summaries) und detaillierten Datenpunkten implementiert. Der Agent durchsucht zuerst eine übergeordnete Ebene (z. B. Themencluster), um den relevanten Bereich einzugrenzen, und ruft erst dann die spezifischen Detail-Chunks ab. Dies reduziert das Rauschen und minimiert die Anzahl der in den Prompt geladenen Token.

Zur Steuerung der Informationsdichte setzen wir folgende Mechanismen ein:

AnsatzTechnische UmsetzungEffekt auf das Kontextfenster
Sliding WindowBeibehaltung der letzten $n$ TokensBegrenzt die Historie auf aktuelle Interaktionen
Recursive SummarizationLLM-gestützte Kompression alter KontexteErsetzt lange Verläufe durch kompakte Zusammenfassungen
Hierarchical Vector StoreIndexierung von Summaries $\rightarrow$ DetailsPräzise Auswahl relevanter Datenfragmente
Knowledge GraphsSpeicherung von Entitäten und RelationenErmöglicht gezielte Abfragen ohne redundante Textblöcke

Die Implementierung dieser Architekturen erfordert präzises Data Engineering, um die Latenz beim Retrieval gering zu halten und die semantische Kohärenz zwischen den Speicherstufen zu gewährleisten. Ein Memory-Management-System steuert dabei den Transfer von Informationen: Aktuelle Daten wandern vom Working Memory in den Kurzzeitspeicher (Mid-term) und werden bei sinkender Relevanz in den Langzeitspeicher (Long-term) konsolidiert.

Für produktive, persistente Agenten empfehlen wir einen hybriden Ansatz aus Knowledge Graphs und hierarchischen Vektorspeichern. Während Vektorspeicher exzellent in der semantischen Ähnlichkeitssuche sind, bieten Knowledge Graphs die notwendige strukturelle Präzision für faktische Beziehungen. Nur diese Kombination verhindert effektiv, dass das Kontextfenster durch vage semantische Treffer überfüllt wird, und sichert eine logisch konsistente Antwortqualität.

Sergej Wiens

Sergej Wiens

Gründer & Software Architekt