Aufgabenunabhängige Destillation grosser Sprachmodelle
Eine neue Methode zum Destillieren grosser Sprachmodelle ohne Lehrmodelle.
― 6 min Lesedauer
Inhaltsverzeichnis
Grosse Sprachmodelle (LLMs) haben sich rasant in Grösse und Fähigkeit entwickelt und verändern, wie wir sie nutzen. Frühere Modelle wie ELMo und BERT waren dafür gedacht, für spezifische Aufgaben feinjustiert zu werden, aber die Grösse moderner Modelle wie GPT-3 macht diesen Ansatz unpraktisch. Stattdessen werden diese Modelle oft ohne Feinjustierung bewertet, indem Methoden wie Zero-Shot- und Few-Shot-Lernen verwendet werden. Aufgrund dieser Veränderungen müssen wir neu überlegen, wie wir kleinere Versionen dieser grossen Modelle herstellen können, ohne ihre Leistung zu beeinträchtigen.
Wissensdestillation
Wissensdestillation ist eine Technik, bei der wir ein kleineres Modell, oft als Studentenmodell bezeichnet, trainieren, um die Ausgabe eines grösseren Modells, das als Lehrermodell bezeichnet wird, nachzuahmen. Diese Methode wird typischerweise verwendet, um Modelle kleiner und schneller, aber dennoch effektiv zu machen. Die meisten bestehenden Arbeiten in diesem Bereich konzentrieren sich auf kleinere Encoder-Modelle und gehen davon aus, dass wir sie für spezifische Aufgaben feinjustieren können. Bei modernen LLMs ist dies jedoch oft nicht möglich, aufgrund ihrer Grösse und der enormen Rechenressourcen, die erforderlich sind.
Task-Agnostische Destillation
In unserer Arbeit schlagen wir eine neue Methode der Destillation vor, die nicht auf ein Lehrermodell angewiesen ist, und konzentrieren uns stattdessen auf einen task-agnostischen Ansatz. Das heisst, wir wollen kleinere Modelle schaffen, die gut für eine Vielzahl von Aufgaben funktionieren, ohne spezifisches Training für diese Aufgaben zu benötigen. Das ist besonders hilfreich in Situationen, in denen wir keinen Zugriff auf Feinjustierungsdaten haben und die Modelle direkt anhand ihrer Leistung bewerten wollen.
Lehrer-freier Ansatz
Traditionelle Destillation erfordert, dass sowohl das Lehrer- als auch das Studentenmodell während des Trainings im GPU-Speicher vorhanden sind. Das kann sehr herausfordernd werden, wenn man es mit Modellen mit Milliarden von Parametern zu tun hat. Daher schlagen wir einen lehrerfreien Ansatz vor, bei dem wir mit einer kleineren Version des grösseren Modells beginnen und es dann mit einer Sprachmodellierungsaufgabe weiter trainieren. So vermeiden wir die Notwendigkeit für ein separates Lehrermodell und reduzieren insgesamt die Rechenbelastung.
Leistungsevaluation
Wir haben unseren neuen Ansatz bei verschiedenen Aufgaben getestet, die Nachdenken, Sprachverständnis und Fragenbeantwortung erfordern. Unsere Experimente umfassten zwei Modellgrössen: eines mit 300 Millionen Parametern und ein anderes mit 1,1 Milliarden Parametern. Beide Modelle wurden mit riesigen Datenmengen von 40 Milliarden bis 320 Milliarden Tokens trainiert. Trotz seiner Einfachheit zeigte unsere Methode eine starke Leistung, indem sie die Modellgrösse um 50 % reduzierte und dabei Ergebnisse erzielte, die mit traditionellen Destillationsmethoden übereinstimmten oder sie sogar übertrafen.
Destillationsaufbau
Der Aufbau unserer Destillationsmethode konzentriert sich darauf, sie praktisch und effizient zu halten. Wir haben die Hälfte der Schichten des grösseren Modells entfernt, was bedeutet, dass wir nur die wesentlichsten Komponenten beibehalten haben. Die Wahl, welche Schichten entfernt werden sollen, ist entscheidend, und wir haben versucht, diejenige zu behalten, die am wichtigsten für die Leistungsfähigkeit ist. Unser Ziel war es, herauszufinden, wie man zwischen dem Beibehalten der wesentlichen Schichten und der effektiven Reduzierung der Modellgrösse ausbalanciert.
Fortgesetzte Vortraining
Anstatt einfach die Ausgaben vom Lehrermodell zu kopieren, führten wir ein weiteres Training unseres kleineren Modells mit dem Ziel der Sprachmodellierung durch. Dadurch konnte die Leistung, die während der Reduzierung der Schichten verloren ging, wiederhergestellt werden. In unseren Experimenten setzten wir das Training mit zusätzlichen 20 Milliarden Tokens von Daten fort, was die Fähigkeit des kleineren Modells, bei nachfolgenden Aufgaben gut abzuschneiden, erheblich verbesserte.
Experimenteller Aufbau
Um unsere Ergebnisse zu validieren, richteten wir eine Reihe von Experimenten ein, die sowohl unsere Methode als auch den traditionellen Destillationsansatz verwendeten. Wir verglichen ihre Leistung anhand verschiedener Metriken, darunter Sprachmodellierungsperplexität und Genauigkeit bei nachgelagerten Aufgaben. Die Ergebnisse zeigten, dass beide Methoden ihre Stärken hatten, unser lehrerfreier Ansatz jedoch im Allgemeinen ressourcenschonender war.
Strategie zur Schichtenentfernung
Eine der entscheidenden Entscheidungen in unserem Ansatz war, wann und wie Schichten während des Trainings aus dem Modell entfernt werden sollten. Unsere Experimente zeigten, dass das plötzliche Entfernen aller Schichten die Leistung nicht beeinträchtigte. Daher konnten wir entweder wählen, alle Schichten auf einmal zu entfernen oder zu warten und sie schrittweise während des Trainings zu entfernen. Letztendlich stellten wir fest, dass der Zeitpunkt dieser Entfernungen keinen signifikanten Einfluss auf die Modellleistung hatte, was den Prozess vereinfacht.
Einfluss der Schichtenposition
Wir haben untersucht, wo man Schichten innerhalb des Modells entfernen sollte, um den Leistungsverlust zu minimieren. Unsere Erkenntnisse zeigten, dass das Entfernen von Schichten näher am Eingang weniger negative Auswirkungen auf die Gesamtleistung hatte als das Entfernen von Schichten in der Nähe des Ausgangs. Diese Einsicht hilft, unseren Ansatz zu verfeinern und ermöglicht es uns, die beste Strategie zu entwickeln, um ein kleineres Modell zu erreichen, ohne notwendige Leistung zu opfern.
Modellgrösse und Trainings-Tokens
Um die Auswirkungen unterschiedlicher Modellgrössen und der Menge an Trainingsdaten auf unsere Leistung zu verstehen, führten wir Tests über verschiedene Konfigurationen hinweg durch. Insgesamt fanden wir heraus, dass je mehr Schichten wir entfernten, desto grösser der Leistungsabfall war. Ausserdem waren Modelle, die einer grösseren Menge an Trainingsdaten ausgesetzt waren, schwerer zu destillieren. Grössere Modelle schienen jedoch mehr „Spielraum“ zu haben, um in der Grösse zu verringern, ohne zu viel Leistung zu verlieren, was für zukünftige Arbeiten, die möglicherweise auf noch grössere Modelle abzielen, ermutigend ist.
Fazit
In dieser Arbeit haben wir einen neuen Ansatz zur Destillation grosser Sprachmodelle vorgeschlagen, der die task-agnostische Bewertung ohne Abhängigkeit von Lehrermodellen betont. Unser lehrerfreier Ansatz zeigt vielversprechende Ergebnisse, indem er eine starke Leistung aufrechterhält und gleichzeitig rechenintensiver ist als traditionelle Methoden. Die Ergebnisse motivieren weiterführende Forschung, bei der wir planen, diese Methode auf noch grössere Modelle anzuwenden, um ihre vollen Möglichkeiten zu erkunden.
Indem wir die task-agnostische Destillation neu definieren, hoffen wir, den Prozess praktischer für moderne grosse Sprachmodelle zu gestalten. Unsere Forschung hebt hervor, wie wichtig es ist, die Modellqualität zu erhalten, während wir den Trainings- und Evaluationsprozess dieser Modelle vereinfachen und den Weg für zukünftige Fortschritte in diesem Bereich ebnen.
Titel: Just CHOP: Embarrassingly Simple LLM Compression
Zusammenfassung: Large language models (LLMs) enable unparalleled few- and zero-shot reasoning capabilities but at a high computational footprint. A growing assortment of methods for compression promises to reduce the computational burden of LLMs in deployment, but so far, only quantization approaches have been demonstrated to be effective for LLM compression while maintaining zero-shot performance. A critical step in the compression process, the pretrain-then-finetune paradigm, has largely been overlooked when adapting existing pruning strategies to LLMs or proposing new ones. In this work, we show that embarrassingly simple layer pruning coupled with an extended language model pretraining as the finetuning phase produces state-of-the-art results against structured and even semi-structured compression of models at a 7B scale while being more inference efficient. We call this method LayerChop, where we deterministically remove layers from a model followed by task-agnostic finetuning of the remaining weights by continued self-supervised pretraining. At this scale, we also show how distillation, which has been super effective in task-agnostic compression of smaller BERT-style models, becomes inefficient against our simple pruning technique.
Autoren: Ananya Harsh Jha, Tom Sherborne, Evan Pete Walsh, Dirk Groeneveld, Emma Strubell, Iz Beltagy
Letzte Aktualisierung: 2024-07-09 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2305.14864
Quell-PDF: https://arxiv.org/pdf/2305.14864
Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.