Wie lässt sich die Perplexität eines Modells nach einer Post-Training Quantisierung durch GPTQ oder AWQ im Vergleich zu einfachen Rounding-Verfahren minimieren?

Die Minimierung der Perplexität bei der Post-Training Quantisierung (PTQ) erfordert die Reduktion des Quantisierungsfehlers $\Delta W$ und dessen Auswirkungen auf die Layer-Outputs. Einfache Rounding-Verfahren (Round-to-Nearest, RTN) behandeln jedes Gewicht isoliert und ignorieren die statistische Verteilung sowie die Dynamik der Aktivierungen, was zu einer signifikanten Degradation der Modellleistung führt.

GPTQ und AWQ reduzieren die Perplexität, indem sie die Gewichte im Kontext ihrer funktionellen Bedeutung optimieren:

MethodeAnsatzFehlerkompensationAuswirkung auf Perplexität
Rounding (RTN)StatischKeineHoch (starker Anstieg)
GPTQDatengetriebenMinimierung des MSE via Hessian-MatrixNiedrig
AWQAktivierungsbasiertSkalierung salienter GewichteSehr niedrig

GPTQ nutzt einen kleinen Kalibrierungsdatensatz, um die inverse Hessian-Matrix der Gewichte zu approximieren. Wir nutzen dieses Verfahren, um die verbleibenden Gewichte eines Layers so anzupassen, dass der quadratische Fehler des Outputs im Vergleich zum FP16-Original minimiert wird. Der Fehler eines quantisierten Gewichts wird somit durch die Anpassung der nachfolgenden Gewichte kompensiert.

AWQ hingegen basiert auf der Beobachtung, dass nur ein kleiner Teil der Gewichte für die Modellleistung kritisch ist. Wir identifizieren diese "salienten" Gewichte anhand der Aktivierungsmagnituden. Anstatt die Gewichte zu verändern, skaliert AWQ diese kritischen Werte vor der Quantisierung. Dies reduziert den relativen Quantisierungsfehler für die wichtigsten Parameter, ohne die Gewichtsmatrix durch komplexe Optimierungen zu verzerren.

Im Rahmen unserer IT-Consulting & Digitale Strategie setzen wir diese Verfahren gezielt ein, um die Inferenzkosten zu senken, ohne die Sprachqualität zu opfern. Während GPTQ eine präzise mathematische Fehlerkorrektur bietet, ist AWQ oft robuster, da es die tatsächliche Nutzung des Modells während der Inferenz besser widerspiegelt.

Für den produktiven Einsatz von Large Language Models empfehlen wir AWQ gegenüber GPTQ. Die Aktivierungs-Awareness schützt die logischen Fähigkeiten des Modells effektiver vor Präzisionsverlusten, während GPTQ durch die Abhängigkeit vom Kalibrierungsdatensatz ein höheres Risiko für Overfitting auf die gewählten Daten aufweist.

Sergej Wiens

Sergej Wiens

Gründer & Software Architekt