Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache# Künstliche Intelligenz

Leistungsverbesserung bei spärlichen Sprachmodellen

Eine neue Methode verbessert das Training von spärlichen Sprachmodellen und minimiert dabei den Leistungsverlust.

― 8 min Lesedauer


Dünne Modelle,Dünne Modelle,Verbesserte Ausbildungbeschnittenen Sprachmodellen.Neue Methoden steigern die Leistung von
Inhaltsverzeichnis

Grosse Sprachmodelle (LLMs), die auf Transformern basieren, haben in vielen Aufgaben grossartige Erfolge erzielt. Aber ihre grosse Grösse bedeutet, dass sie viel Speicher und Rechenleistung brauchen, was die Nutzung schwierig macht. Es wurden Anstrengungen unternommen, diese Modelle durch einen Prozess namens Pruning kleiner zu machen, bei dem Teile des Modells entfernt werden. Oft verliert das Modell aber seine Fähigkeit, bei schwierigen Aufgaben gut abzuschneiden, wenn das gemacht wird.

Um dieses Problem anzugehen, wird ein neuer Ansatz namens Adaptive Sparse Trainer (AST) vorgeschlagen. Diese Methode hilft einem beschnittenen Modell, das Wissen des ursprünglichen Modells zu behalten, was ihm hilft, besser zu lernen, ohne zu überanpassen. Der AST erlaubt es dem Modell, anzupassen, wie es auswählt, welche Teile während des Trainings beizubehalten sind, was zu besserer Leistung führt. Es wurde auch festgestellt, dass das Hinzufügen einiger zusätzlicher gut platzierter Parameter dem Modell helfen könnte, besser abzuschneiden, ohne viel mehr Speicher zu verwenden.

AST verringert die Leistungsdifferenz zwischen dichten und spärlichen Modellen, während die Rechenkosten niedrig bleiben. In Kombination mit anderen Kompressionsmethoden kann AST Sprachmodelle erheblich verkleinern, ohne die Effektivität stark zu beeinträchtigen. In Tests übertraf AST frühere Methoden und verringerte die Genauigkeitslücke zwischen den beiden Modelltpyen auf etwas über 1% bei verschiedenen Aufgaben.

Verständnis von Modell-Pruning

Pruning ist eine wichtige Technik, die verwendet wird, um Modelle kleiner und weniger ressourcenintensiv zu machen. Es kann auf verschiedene Arten geschehen, einschliesslich unstrukturierten Prunings, bei dem einzelne Gewichte abgeschnitten werden, und strukturierten Prunings, bei dem ganze Abschnitte wie Neuronen oder Filter entfernt werden. Unstrukturiertes Pruning kann effektiv sein, aber es kompliziert oft die Funktionsweise des Modells auf Standardhardware. Auf der anderen Seite ist strukturiertes Pruning einfacher zu handhaben, kann aber zu grösseren Leistungsabfällen führen.

Kürzlich hat ein Mittelweg namens N:M Sparsity an Aufmerksamkeit gewonnen. Diese Methode hält eine bestimmte Anzahl von Nicht-Null-Gewichten in Gruppen, was die Verarbeitung auf modernen GPUs beschleunigen kann. Viele aktuelle Methoden, wie SparseGPT und Wanda, neigen jedoch dazu, erst nach Abschluss des Trainings zu arbeiten und führen oft zu schlechterer Leistung, insbesondere bei komplexen Aufgaben.

Die Rolle semi-strukturierter spärlicher Modelle

Diese neue Arbeit zeigt, dass spärliche Modelle nicht nur bei einfachen Aufgaben gut abschneiden, sondern auch in komplexeren Szenarien. Es nimmt dichte vortrainierte Modelle und wandelt sie in spärliche um. Obwohl es viele Forschungen zum Retraining beschnittener Modelle gibt, konzentriert sich der Grossteil auf kleinere Modelle oder spezifische Aufgaben. Dieser Ansatz gilt für grössere Modelle mit Milliarden von Parametern und bewertet sie bei verschiedenen Aufgaben.

Das Retraining grosser Modelle bringt jedoch Herausforderungen mit sich. Oft sind die ursprünglichen Trainingsdaten nicht mehr verfügbar, was bedeutet, dass man sich auf weniger geeignete Quellen verlassen muss, die dazu führen können, dass das Modell wichtige Informationen vergisst. Ausserdem kann das Retraining viel Rechenressourcen erfordern.

Um diese Herausforderungen zu überwinden, wird der Adaptive Sparse Trainer (AST) eingeführt. Anstatt alle unwichtigen Gewichte auf einmal zu entfernen, reduziert AST schrittweise deren Bedeutung, wodurch einige Gewichte während des Trainings wiederbelebt werden können. Diese Methode hilft dem Modell, das wertvolle Wissen, das es zuvor gelernt hat, zu behalten, während es den besten Weg findet, die verbleibenden Gewichte zu verbinden.

Hinzufügen von Parametern für bessere Leistung

Der neue Ansatz schlägt auch vor, eine kleine Anzahl sorgfältig ausgewählter Parameter hinzuzufügen, um die Leistung zu verbessern. Um Lücken zu vermeiden, die durch die Verwendung minderwertiger Datensätze verursacht werden, wurde ein qualitativ hochwertiger Open-Source-Datensatz zusammen mit effizienten Datenverarbeitungsmethoden verwendet. Diese Kombination ermöglicht es dem AST, das Beste aus spärlichen Modellen herauszuholen.

Bei der Anwendung von AST auf ein bestimmtes Modell war der Leistungsverlust minimal, nur ein leichter Anstieg der Verwirrtheit und ein kleiner Rückgang der Genauigkeit. Ausserdem wurde das Modell mithilfe einer Quantisierungsmethode weiter komprimiert, die es ihm ermöglichte, auch bei starker Kompression eine starke Leistung zu behalten.

Techniken im Modell-Pruning

Netzwerk-Pruning ist wichtig, um die Modellgrösse und den Rechenbedarf zu verringern, während die Leistung intakt bleibt. Das hat seine Wurzeln in früheren Methoden, die darauf abzielten, die ineffektiven Teile eines Modells selektiv abzubauen. Verschiedene Arten von Pruning werden je nach der Art, wie die Gewichte entfernt werden, kategorisiert.

Die typische Praxis beim Pruning von transformerbasierten Modellen beinhaltet das Schneiden von Gewichten in allen linearen Schichten, wodurch die Leistung des Modells intakt bleibt. Jüngste Studien haben gezeigt, dass es wichtig ist, welche Gewichte beibehalten werden, und einfache Methoden wie Magnituden-Pruning bringen oft die besten Ergebnisse.

Beim Retraining gibt es Herausforderungen, wenn es darum geht, Informationen durch die Schichten eines spärlichen Modells zurückzugeben. Techniken wie Straight-Through-Estimators helfen dabei, indem sie den Gradienten ermöglichen, auf approximative Weise durchzukommen.

Messung der Trainingsstabilität

Um sicherzustellen, dass Modelle effektiv trainiert werden, werden verschiedene Metriken verwendet, um zu verfolgen, wie stabil die Verbindungsstrukturen während des Trainings sind. Hohe Änderungsraten in den Verbindungen können darauf hinweisen, dass das Modell Schwierigkeiten hat. Es ist entscheidend, diese Stabilität aufrechtzuerhalten, um eine gute Leistung zu gewährleisten.

Wissensdestillation

Eine weitere nützliche Technik ist die Wissensdestillation, bei der ein kleineres Modell lernt, die Leistung eines grösseren zu replizieren. In diesem Fall ist das kleinere Modell das spärliche und das grössere sein dichtes Pendant. Diese Methode hilft, das Lernen zu verbessern, indem das kleinere Modell die Ausgaben des grösseren Modells imitiert.

Während des Trainings reicht es nicht aus, sich nur auf den Verlust beim Sprachmodellieren zu verlassen, damit ein beschnittenes Modell die besten Ergebnisse erzielt. Besonders für kleinere Modelle, die mit Überanpassungsproblemen kämpfen, kann die Verwendung einer komplexeren Verlustfunktion ein besseres Lernsignal liefern und dem Modell helfen, Überanpassung zu vermeiden.

Einzigartiger zweistufiger Trainingsprozess

Das Retraining eines spärlichen Modells wird in zwei Phasen unterteilt: die Rekonstruktionsphase und die Fortsetzungsphase. In der Rekonstruktionsphase arbeitet das Modell daran, verlorene Fähigkeiten schnell wiederzuerlangen und zeigt gute Verbesserungen im Training und in der Validierung.

Die zweite Phase ähnelt dem traditionellen Training, bei dem das Modell im Laufe der Zeit schrittweise neue Merkmale lernt. Es ist wichtig zu erkennen, dass das spärliche Modell einige seiner Lernfähigkeiten von seinem dichteren Vorgänger behält, was den Wiederherstellungsprozess beschleunigt.

Dynamische Anpassungen während des Trainings

Ein gängiger Ansatz beim Retraining von Modellen besteht darin, die Gewichtsmasken von Anfang an festzulegen, was jedoch den Fortschritt behindern kann. Stattdessen führt es zu besseren Konvergenzen, wenn das Modell während des Trainings seine Masken dynamisch anpassen kann.

Eine neue Planungsmethode, die auf einer Technik namens Simulated Annealing basiert, hilft dabei, wie aggressiv das Modell seine Verbindungen während des Trainings für optimale Ergebnisse ändern kann. Diese Methode ermöglicht es, bessere Maskenkombinationen in einer früheren Trainingsphase zu erkunden und gleichzeitig später Stabilität zu gewährleisten.

Verbesserung der Modellspeicherkapazität mit niedrigrangiger Anpassung

Da beschnittene Modelle möglicherweise einige ihrer Effektivität verlieren, eröffnet die Kombination mit nieder-rangigen Anpassungen einen Weg zur Leistungssteigerung. Indem das Modell sowohl mit beschnittenen als auch mit neuen Gewichten arbeitet, hilft es, seine volle Kapazität zu bewahren und gleichzeitig effizienter zu bleiben.

Die Initialisierung der Gewichte ist ebenfalls entscheidend. Anstatt von Grund auf neu zu starten, können die zusätzlichen Gewichte Informationen aus den verbleibenden Gewichten nutzen, was ein schnelleres Training und bessere Leistung ermöglicht.

Effektives Komprimieren von Modellen

Die Kompression des Modells kann helfen, seine Effizienz zu verbessern, ohne die Leistung negativ zu beeinträchtigen. Dieses Bestreben zielt darauf ab, ein gutes Gleichgewicht zwischen der Beibehaltung der Effektivität des Modells und der erleichterten Ausführung zu finden, insbesondere auf weniger leistungsfähiger Hardware.

Obwohl das Pruning von Modellen manchmal zusätzliche Speicheranforderungen mit sich bringt, gibt es effektive Ansätze, die diese Anforderungen erheblich reduzieren, ohne die Leistung zu beeinträchtigen.

Experimentelle Validierung

In Experimenten wurden verschiedene Modelle mit den neuen Methoden getestet. Die Ergebnisse zeigten, dass die vorgeschlagenen Methoden in mehreren Modelltypen eine bessere Leistung als frühere Methoden erbracht haben. Bei kleineren Modellen, bei denen frühere Methoden Schwierigkeiten hatten, erwies sich der neue Ansatz als effektiv, um hohe Leistungsniveaus aufrechtzuerhalten.

Bei der Betrachtung von Zero-Shot- und Few-Shot-Aufgaben schnitten die neuen Methoden im Vergleich zu bestehenden Standards durchweg gut ab. Auch wenn die Modellvergleiche einige Unterschiede in der Architektur zeigten, war die Gesamteffizienz des neuen Ansatzes offensichtlich.

Abschliessende Gedanken

Diese Arbeit präsentiert eine neue Methode zum Training semi-strukturierter spärlicher Modelle, die effektiv von einem dichten in einen spärlichen Zustand übergehen können. Durch das Nutzen von Wissen aus dem ursprünglichen Modell und die Anwendung besserer Techniken zur Auswahl, welche Teile beibehalten werden sollen, wurden erhebliche Verbesserungen mit minimalen zusätzlichen Trainingskosten erzielt.

Zukünftige Bemühungen könnten diese Erkenntnisse ausbauen, insbesondere die Anwendbarkeit der Methode auf grössere Modelle oder mit umfangreicheren Trainingsdatasets zu erkunden. Die Fortschritte eröffnen neue Wege, um Modelle effektiv zu komprimieren und gleichzeitig gute Leistungsniveaus aufrechtzuerhalten.

Originalquelle

Titel: Pruning Large Language Models with Semi-Structural Adaptive Sparse Training

Zusammenfassung: The remarkable success of Large Language Models (LLMs) relies heavily on their substantial scale, which poses significant challenges during model deployment in terms of latency and memory consumption. Recently, numerous studies have attempted to compress LLMs using one-shot pruning methods. However, these methods often suffer from considerable performance degradation on complex language understanding tasks, raising concerns about the feasibility of pruning in LLMs. To address this issue, we propose Adaptive Sparse Trainer (AST), a novel and efficient retraining framework tailored for semi-structured sparse models. AST enables models to learn optimal masks during the weight update process without incurring additional computational overhead. Furthermore, we demonstrate that incorporating knowledge distillation significantly improves retraining efficiency and enhances model performance under fixed computational constraints. Additionally, a supplementary set of well-initialized parameters is integrated to further augment the model's efficacy. AST achieves state-of-the-art performance with minimal training cost. When applied to the LLaMA2-7B model, AST reduces the perplexity and zero-shot accuracy gap between dense and 2:4 semi-structured sparse models to 0.6 and 1.16%, respectively, utilizing less than 0.4% of the pretraining tokens and GPU hours. Our work demonstrates the feasibility of deploying semi-structured sparse LLMs and offers a promising alternative for achieving highly compressed models when combined with existing quantization techniques.

Autoren: Weiyu Huang, Yuezhou Hu, Guohao Jian, Jun Zhu, Jianfei Chen

Letzte Aktualisierung: 2024-12-18 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2407.20584

Quell-PDF: https://arxiv.org/pdf/2407.20584

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel