Verbesserung der Kompressionstechniken für grosse Sprachmodelle
Eine neue Methode verbessert die Modellkompression und behält dabei die Genauigkeit bei.
― 6 min Lesedauer
Inhaltsverzeichnis
- Was ist Post-Training Quantisierung?
- Das Problem mit aktuellen Methoden
- Einführung von Output-adaptive Calibration
- Wie funktioniert OAC?
- Vorteile von OAC
- Verwandte Arbeiten zu Quantisierungstechniken
- Die Herausforderung der Niedrigpräzisionsquantisierung
- Experimentelle Studien
- Erkenntnisse aus den Experimenten
- Fazit
- Originalquelle
- Referenz Links
Grosse Sprachmodelle (LLMs) haben die Art und Weise geändert, wie wir mit Sprachaufgaben umgehen. Sie können menschenähnlichen Text erzeugen, Fragen beantworten und den Kontext verstehen. Allerdings sind diese Modelle sehr gross und benötigen viel Rechenleistung. Das macht sie teuer und schwer zu nutzen auf kleineren Geräten. Eine Möglichkeit, sie einfacher zu handhaben, ist die Kompression, die die Grösse und die Geschwindigkeit, die sie zum Betrieb benötigen, verringert.
Post-Training Quantisierung?
Was istPost-Training Quantisierung (PTQ) ist ein Verfahren, das hilft, die Grösse dieser Modelle zu reduzieren, nachdem sie bereits trainiert wurden. Das heisst, wir können die Modelle kleiner machen, ohne den Trainingsprozess erneut durchlaufen zu müssen, was zeitaufwendig und teuer sein kann. PTQ funktioniert, indem die Präzision der Gewichte des Modells verringert wird – man kann sich das wie das Runden von Zahlen vorstellen, um weniger Speicher zu verwenden.
Das Problem mit aktuellen Methoden
Die meisten PTQ-Methoden konzentrieren sich auf jede Schicht des Modells einzeln und berücksichtigen nicht, wie diese Schichten das Endergebnis beeinflussen. Das bedeutet, dass sie manchmal wichtige Details übersehen, die die Gesamtleistung des Modells nach der Kompression beeinflussen. Wegen dieses Versäumnisses kann die Verwendung von sehr niedriger Präzision – wie das Konvertieren auf 2 Bits – zu einem Rückgang der Genauigkeit führen.
Aktuelle Methoden verwenden oft etwas, das Hessian genannt wird, was eine Möglichkeit ist, zu messen, wie empfindlich Gewichte auf Änderungen reagieren. Obwohl das hilfreich sein kann, haben bestehende Methoden immer noch Schwierigkeiten, die Genauigkeit zu bewahren, besonders wenn das Quantisierungsniveau sehr niedrig ist.
Einführung von Output-adaptive Calibration
Um diese Probleme anzugehen, wurde ein neuer Ansatz namens Output-adaptive Calibration (OAC) vorgeschlagen. Die Hauptidee von OAC ist, auch das finale Ergebnis des Modells zu betrachten, wenn Anpassungen während der Kompression vorgenommen werden. Anstatt sich nur auf jede Schicht zu konzentrieren, wird berücksichtigt, wie sich Änderungen auf das gesamte Ergebnis des Modells auswirken.
OAC funktioniert, indem geschätzt wird, wie sehr sich das finale Ergebnis aufgrund der Kompression ändert. Es konzentriert sich darauf, den Fehler zu minimieren, der zwischen dem ursprünglichen Modellausgang und dem komprimierten Modellausgang auftreten könnte. Damit zielt OAC darauf ab, die Leistung des Modells auch bei sehr niedrigen Präzisionsniveaus hoch zu halten.
Wie funktioniert OAC?
OAC implementiert einen zweistufigen Prozess. Zuerst wird etwas berechnet, das als output-adaptive Hessian bezeichnet wird. Diese Matrix hilft dem Modell zu verstehen, wie verschiedene Gewichte sein Ergebnis nach der Quantisierung beeinflussen werden. Es ist wie eine Strassenkarte für das Modell, um zu sehen, wo es vorsichtig mit Änderungen sein muss.
Der zweite Schritt besteht darin, die Gewichte des Modells mit diesen Informationen zu kalibrieren. Dadurch kann OAC sicherstellen, dass das Modell, obwohl es komprimiert wird, weiterhin gut bei seinen Aufgaben abschneidet.
Vorteile von OAC
Bessere Genauigkeit: OAC hat gezeigt, dass es die Leistung verbessert, insbesondere in Fällen, in denen Modelle auf sehr niedrige Präzisionsniveaus komprimiert werden. Das bedeutet, dass Nutzer von kleineren Modellen profitieren können, ohne dabei Qualität einzubüssen.
Effizienz: OAC kann den Prozess schneller und günstiger machen, da es die Notwendigkeit vermeidet, das gesamte Modell neu zu trainieren.
Vielseitigkeit: Die Methode kann auf verschiedene Typen von LLMs angewendet werden, was sie zu einem flexiblen Werkzeug für Entwickler macht.
Verwandte Arbeiten zu Quantisierungstechniken
Traditionelle Quantisierungsmethoden fallen oft in zwei Kategorien: Quantization-aware Training (QAT) und PTQ. QAT beinhaltet das Training des Modells, während es quantisiert wird, was erhebliche Rechenressourcen beanspruchen kann. PTQ hingegen erlaubt die Quantisierung, nachdem das Modell trainiert wurde, was es weniger ressourcenintensiv macht.
Viele bestehende PTQ-Methoden wurden hauptsächlich an kleineren Modellen getestet, was es schwierig macht, sie effektiv auf grosse Modelle anzuwenden. Beispiele sind AdaRound und OBQ, die bei kleineren Modellen gut funktionieren, aber Schwierigkeiten haben, wenn sie mit der Komplexität von LLMs konfrontiert werden.
Einige frühe Versuche mit PTQ für LLMs umfassten ZeroQuant und LLM.int8(), aber diese Methoden hatten Schwierigkeiten, die Leistung bei niedrigeren Präzisionsniveaus, insbesondere bei 2-Bit-Kompression, aufrechtzuerhalten.
Die Herausforderung der Niedrigpräzisionsquantisierung
Wenn man versucht, Modelle auf extrem niedrige Präzision zu quantisieren, wie 2 Bits oder binär, wird die Herausforderung komplex. Jede Reduktion der Präzision kann die Fähigkeit des Modells, Aufgaben genau zu erledigen, stark beeinflussen.
Die Leistung verschiedener Quantisierungsmethoden zeigt, dass, je kleiner das Modell wird oder je niedriger das Präzisionsniveau fällt, die Genauigkeit dazu tendiert, ebenfalls zu sinken. Das erhöht den Bedarf an verbesserten Methoden, die eine angemessene Leistung unabhängig davon aufrechterhalten können, wie viel Kompression angewendet wird.
Experimentelle Studien
Um OAC zu testen, wurden verschiedene Modelle rigorosen Bewertungen unterzogen. Diese Tests beinhalteten die Analyse, wie gut die Modelle bei Aufgaben wie Sprachverständnis und -generierung abschneiden, indem verschiedene Datensätze verwendet wurden, um ihre Effektivität zu messen.
Experimente zeigten, dass OAC andere hochmoderne PTQ-Methoden deutlich übertraf, wenn sie auf niedrige Präzision reduziert wurden, und damit seine Stärken insbesondere bei grösseren Modellen demonstrierte.
Erkenntnisse aus den Experimenten
Die Analyse der Tests bestätigte, dass die Verwendung von output-adaptive Calibration in der Kompression die Leistung bewahrt. Dies gilt insbesondere für herausfordernde Szenarien mit kleineren Modellgrössen oder niedrigeren durchschnittlichen Bitbreiten.
Die Ergebnisse zeigten konsequent, dass Modelle, die OAC nutzen, geringere Perplexitätswerte aufwiesen, was bedeutet, dass sie kohärenteren Text erzeugten, während sie auch bei Denkaufgaben besser abschnitten als andere Methoden.
Fazit
Output-adaptive Calibration (OAC) sticht als vielversprechende Methode hervor, um grosse Sprachmodelle zu komprimieren und gleichzeitig die Genauigkeit zu bewahren. Indem nicht nur auf einzelne Schichten, sondern auch auf das Endergebnis des Modellausgangs geachtet wird, bietet OAC eine bessere Balance zwischen Modellgrösse und Leistung.
Da die Modelle weiterhin in Komplexität und Grösse zunehmen, werden Techniken wie OAC entscheidend sein, um sicherzustellen, dass sie in einer Vielzahl von Anwendungen, insbesondere auf Geräten mit begrenzten Ressourcen, zugänglich und nutzbar bleiben. Durch weitere Studien und die Erweiterung dieses Ansatzes können wir auf noch verfeinerte Methoden zur Bewältigung der Herausforderungen bei der Bereitstellung grosser Sprachmodelle hoffen.
Titel: OAC: Output-adaptive Calibration for Accurate Post-training Quantization
Zusammenfassung: Deployment of Large Language Models (LLMs) has major computational costs, due to their rapidly expanding size. Compression of LLMs reduces the memory footprint, latency, and energy required for their inference. Post-training Quantization (PTQ) techniques have been developed to compress LLMs while avoiding expensive re-training. Most PTQ approaches formulate the quantization error based on a layer-wise $\ell_2$ loss, ignoring the model output. Then, each layer is calibrated using its layer-wise Hessian to update the weights towards minimizing the $\ell_2$ quantization error. The Hessian is also used for detecting the most salient weights to quantization. Such PTQ approaches are prone to accuracy drop in low-precision quantization. We propose Output-adaptive Calibration (OAC) to incorporate the model output in the calibration process. We formulate the quantization error based on the distortion of the output cross-entropy loss. OAC approximates the output-adaptive Hessian for each layer under reasonable assumptions to reduce the computational complexity. The output-adaptive Hessians are used to update the weight matrices and detect the salient weights towards maintaining the model output. Our proposed method outperforms the state-of-the-art baselines such as SpQR and BiLLM, especially, at extreme low-precision (2-bit and binary) quantization.
Autoren: Ali Edalati, Alireza Ghaffari, Masoud Asgharian, Lu Hou, Boxing Chen, Vahid Partovi Nia
Letzte Aktualisierung: 2024-05-23 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2405.15025
Quell-PDF: https://arxiv.org/pdf/2405.15025
Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.