Wie lässt sich eine LLMOps-Pipeline für die produktive Skalierung von Retrieval Augmented Generation (RAG) Systemen designen?

Die produktive Skalierung von RAG-Systemen erfordert eine strikte Trennung zwischen der Daten-Ingestion-Pipeline (Offline) und der Retrieval-Generation-Pipeline (Online). Wir designen diese Architektur modular, um Iterationszyklen für Embeddings und Prompts unabhängig voneinander zu steuern.

Die Pipeline gliedert sich in folgende technische Komponenten:

PhaseKomponenteFokus
Data IngestionETL & ChunkingSemantisches Splitting, Metadaten-Tagging
IndexingVector DatabaseIndex-Optimierung, Latenzminimierung
RetrievalHybrid SearchKombination aus BM25 und Vektorsuche
RefinementRe-RankerCross-Encoder zur Präzisionssteigerung
GenerationLLM OrchestrationPrompt-Versionierung, Temperature-Control
EvaluationLLM-as-a-JudgeRAGAS-Metriken (Faithfulness, Relevance)

In der Daten-Pipeline automatisieren wir das Laden und Indexieren von Dokumenten. Wir setzen hierbei auf semantisches Chunking, um den Kontext innerhalb der Vektordatenbank zu erhalten und Informationsverluste an Chunk-Grenzen zu vermeiden. In der Online-Pipeline optimieren wir den Retrieval-Prozess durch Hybrid-Search. Diese kombiniert keywordbasierte Suchen mit dichten Vektoren, um sowohl exakte Begriffe als auch semantische Konzepte zu erfassen. Ein nachgeschalteter Re-Ranker filtert die Top-K-Ergebnisse, wodurch die Qualität des Kontext-Fensters für das LLM gesteigert wird.

Im Rahmen unserer KI-Lösungen & Integration implementieren wir automatisierte Evaluierungs-Frameworks wie RAGAS oder TruLens. Diese messen die Performance anhand von Metriken wie Faithfulness (Treue zum Kontext) und Answer Relevance. Die Versionierung erfolgt nicht nur auf Code-Ebene, sondern explizit für Prompt-Templates und Embedding-Modelle, um eine vollständige Reproduzierbarkeit der Ergebnisse zu gewährleisten. Monitoring-Tools tracken zudem die Token-Kosten und die Latenz der einzelnen Pipeline-Schritte, um Engpässe in der Infrastruktur frühzeitig zu identifizieren.

Wir empfehlen, den Fokus primär auf die Optimierung des Retrievals und die Implementierung eines Re-Rankers zu legen, da die Qualität der generierten Antwort in produktiven Systemen fast ausschließlich von der Präzision des bereitgestellten Kontextes abhängt und nicht von der Größe des LLMs.

Sergej Wiens

Sergej Wiens

Gründer & Software Architekt