Welche Auswirkungen haben unterschiedliche RoPE-Skalierungsmethoden (z. B. Linear Scaling vs. NTK-aware Scaling) auf die Extrapolation des Kontextfensters?

Die Erweiterung des Kontextfensters bei Large Language Models (LLMs), die Rotary Positional Embeddings (RoPE) nutzen, erfordert eine Anpassung der Rotationsfrequenzen, da Modelle außerhalb ihres Trainingsbereichs instabil werden.

Linear Scaling reduziert die Positionsindizes durch einen konstanten Faktor $s$. Dadurch werden die gelernten Positionen über einen größeren Bereich gestreckt. Das Problem hierbei ist der Verlust an Auflösung: Die relative Distanz zwischen Token wird verringert, was dazu führt, dass das Modell die präzise Positionierung von Token in kurzen Sequenzen schlechter verarbeitet. Dies resultiert in einem Anstieg der Perplexität, sofern das Modell nicht auf dem erweiterten Kontext neu trainiert wird.

NTK-aware Scaling hingegen basiert auf der Theorie des Neural Tangent Kernels. Anstatt alle Dimensionen gleichmäßig zu skalieren, werden die Basisfrequenzen so modifiziert, dass hochfrequente Komponenten (verantwortlich für lokale Abhängigkeiten) weitgehend erhalten bleiben, während niederfrequente Komponenten gestreckt werden. Dies verhindert das „Verschwimmen“ der lokalen Aufmerksamkeit und ermöglicht eine bessere Extrapolation ohne unmittelbares Fine-Tuning.

Der Vergleich der Auswirkungen lässt sich wie folgt zusammenfassen:

MerkmalLinear ScalingNTK-aware Scaling
MechanismusGleichmäßige Streckung aller DimensionenFrequenzabhängige Skalierung
Lokale KohärenzSinkt (Auflösungsverlust)Bleibt weitgehend stabil
PerplexitätSteigt stark ohne Fine-TuningBleibt bei kurzen Sequenzen niedrig
ExtrapolationsfähigkeitGeringHoch
RechenaufwandMinimalMinimal

Bei der Implementierung dieser Methoden im Rahmen von Data Engineering ist zu beachten, dass die Wahl der Methode direkt die Qualität der Retrieval-Augmented Generation (RAG) beeinflusst, da die Fähigkeit, präzise Informationen aus langen Dokumenten zu extrahieren, von der Stabilität der Positions-Embeddings abhängt.

Wir empfehlen für produktive Systeme den Einsatz von NTK-aware Scaling oder noch fortschrittlicheren Methoden wie YaRN, sofern kein umfangreiches Fine-Tuning auf dem Zielkontext möglich ist. Linear Scaling ist aufgrund des massiven Informationsverlusts in der lokalen Aufmerksamkeit für hochwertige Textgenerierung ungeeignet und sollte nur als Baseline-Test verwendet werden.

Sergej Wiens

Sergej Wiens

Gründer & Software Architekt