Neues System für das Betreiben von grossen Sprachmodellen auf Smartphones
Ein bahnbrechendes System ermöglicht schnelle LLM-Operationen auf Smartphones und verbessert die Privatsphäre der Nutzer.
― 6 min Lesedauer
Inhaltsverzeichnis
Dieser Artikel spricht über ein neues System, das dafür entwickelt wurde, grosse Sprachmodelle (LLMs) schnell auf Smartphones auszuführen. Diese Modelle können sehr gross sein, oft grösser als der verfügbare Speicher auf einem Handy. Das System nutzt clever verschiedene Computerressourcen, die im Telefon verfügbar sind, um die Anforderungen des Modells zu bewältigen.
Wichtige Funktionen des Systems
Das System hat mehrere wichtige Funktionen. Es zerlegt komplexe Berechnungen in kleinere Teile, wodurch es die unterschiedlichen Rechenressourcen des Handys effektiver nutzen kann. Es hat einen speziellen Motor, der sich anpasst, je nachdem, welches Modell verwendet wird. Ausserdem speichert es häufig genutzte Daten im Cache, um Vorgänge zu beschleunigen und Verzögerungen zu minimieren, die durch das Lesen aus dem Speicher oder von der Festplatte entstehen.
Mit diesem Design unterstützt das System eine breite Palette von Sprachmodellen auf verschiedenen Smartphones. Es kann bis zu 29,2 Mal schneller arbeiten als andere führende Systeme, die derzeit verfügbar sind. Bemerkenswert ist, dass dies das erste System ist, das ein Modell namens TurboSparse-Mixtral-47B auf einem Smartphone ausführen kann, wodurch es Text mit einer Geschwindigkeit von 11,68 Token pro Sekunde generieren kann.
Der Aufstieg grosser Sprachmodelle
Grosse Sprachmodelle haben verändert, wie wir mit Technologie interagieren. Diese Modelle können menschenähnlichen Text verstehen und erzeugen, was sie für viele Aufgaben nützlich macht. Allerdings benötigen die ausgeklügeltsten Modelle leistungsstarke Computer in Rechenzentren, wo es fortschrittliche Grafikprozessoren (GPUs) und viel Speicher gibt.
Da Smartphones immer leistungsfähiger werden, suchen Forscher nach Möglichkeiten, diese Modelle direkt auf Handys auszuführen. Dadurch könnte das Handy als smarter Assistent agieren, der persönliche Daten nutzt, ohne sie in die Cloud senden zu müssen, was den Schutz der Privatsphäre der Nutzer unterstützt.
Herausforderungen beim Ausführen von LLMs auf Smartphones
Trotz ihrer Vorteile stehen Smartphones vor grossen Herausforderungen, wenn es darum geht, LLMs auszuführen. Sie haben in der Regel weniger Rechenleistung und Speicher im Vergleich zu High-End-Computern. Versuche, kleinere Modelle zu verwenden, führen oft zu Leistungseinbussen. Zum Beispiel wurde Googles Gemini Nano-Modell verkleinert, um in den Speicher eines Handys zu passen, aber es funktioniert nicht so gut wie grössere Modelle.
Es gibt andere Methoden, die helfen, den Speicher- und Rechenbedarf von LLMs zu senken. Ein Ansatz ist für Personal Computer konzipiert, hat aber Schwierigkeiten mit der begrenzten Hardware in Smartphones. Da mobiler Speicher langsamer und weniger effizient ist, wird er oft zum Engpass, wenn das System Daten lesen muss, was zu Verzögerungen bei der Verarbeitung führt.
Einführung des neuen Systems
Das neue System ist darauf ausgelegt, grosse Modelle auf Smartphones auszuführen, selbst wenn sie die Speichergrenzen überschreiten. Es basiert auf früheren Arbeiten, die sich auf die effiziente Nutzung begrenzter Ressourcen konzentrierten. Indem es erkennt, dass nicht alle Teile eines grossen Modells gleichzeitig aktiv sein müssen, kann das System nur mit einer ausgewählten Gruppe von Neuronen arbeiten, die die Grundbausteine des Modells sind.
Die Fähigkeit des Systems, sich an die einzigartige Hardware von Smartphones anzupassen, bedeutet, dass es die Geschwindigkeit der Antwortgenerierung optimieren kann. Es erreicht dies, indem es unterschiedliche Verarbeitungsstrategien anwendet, abhängig davon, was es gerade tut, ob es sich auf die Verarbeitung vorbereitet oder tatsächlich Antworten generiert.
Speicher- und Speicherlösungen
Eine der grossen Herausforderungen ist der begrenzte Speicher, der auf Smartphones verfügbar ist. Um damit umzugehen, nutzt das System den Speicher effektiv, indem es häufig verwendete Daten cached. Ausserdem führt es eine Technik ein, die ein besseres Gleichgewicht zwischen dem Lesen von Daten aus dem Speicher und der Durchführung von Berechnungen ermöglicht. Das bedeutet, dass es die Zeit minimieren kann, die mit dem Warten auf das Laden von Daten verbracht wird, und so den gesamten Prozess beschleunigt.
Die Funktionsweise des Systems umfasst sorgfältig geplante Lese- und Verarbeitungsstrategien, die berücksichtigen, wie der Speicher und die Speicherung des Smartphones interagieren. Diese Planung erfolgt automatisch, wenn ein neues Modell zum ersten Mal auf einem Smartphone ausgeführt wird. Durch die Analyse sowohl des Modells als auch der Hardwarefähigkeiten kann das System einen detaillierten Plan erstellen, der die Leistung optimiert.
Wie das neue System funktioniert
Das neue Framework behandelt zwei wichtige Schritte: Vorabfüllung und Dekodierung. Während der Vorabfüllungsphase wird die gesamte Eingabe auf einmal verarbeitet, während die Dekodierungsphase ein Token nach dem anderen auf Grundlage des vorherigen generiert. Jede Phase hat ihre eigenen rechnerischen Bedürfnisse, und das System optimiert jede einzeln.
In der Vorabfüllphase nutzt das System die vollen Fähigkeiten der VerarbeitungsEinheiten des Smartphones, und diese Phase kann grössere Datenmengen effizient verwalten. Im Gegensatz dazu konzentriert sich die Dekodierungsphase darauf, kleinere Datenmengen schnell zu verarbeiten, was es ermöglicht, die Architektur des Smartphones ausgewogener zu nutzen.
Leistungsevaluierung
Das System wurde an zwei Smartphone-Modellen, dem OnePlus 12 und dem Ace 2, getestet, die über unterschiedliche Verarbeitungsfähigkeiten verfügen. Es unterstützt eine Vielzahl von LLMs, einschliesslich Grössen von 7 Milliarden bis 47 Milliarden Parametern. Die Ergebnisse zeigen eine durchschnittliche Geschwindigkeitssteigerung in der Leistung, was beweist, dass es effektiv auf mobiler Hardware arbeiten kann.
Insbesondere als beide Smartphones genügend Speicher hatten, reduzierte das System die benötigte Speichermenge erheblich, während es weiterhin schnelle Inferenzgeschwindigkeiten bot. Zum Beispiel erzielte es beim Umgang mit kleineren Modellen eine nahezu 40%ige Reduktion des Speicherverbrauchs und erreichte gleichzeitig Leistungsniveaus, die in anderen wettbewerbsfähigen Systemen zu finden sind.
Leistung bei realen Aufgaben
Die Leistung des Systems wurde auch bei realen Aufgaben wie Mehrfachdialogen, Code-Generierung und Mathe-Problemlösungen getestet. Es zeigte konsequent robuste Dekodierungsgeschwindigkeiten bei diesen Aufgaben. Selbst bei begrenztem Speicher arbeitete es besser als andere Systeme und bewies seine Effizienz bei praktischen Anwendungen.
Fazit
Dieses neue Framework stellt einen bedeutenden Fortschritt in der Fähigkeit dar, grosse Sprachmodelle auf Smartphones auszuführen. Indem es sich an die einzigartigen Eigenschaften mobiler Hardware anpasst und Berechnungen sowie Datenspeicherung intelligent verwaltet, kann es beeindruckende Leistungen bieten und gleichzeitig die Einschränkungen des Geräts respektieren. Während es weiterentwickelt wird, verspricht das System, noch grössere Möglichkeiten für persönliche Geräte im Verständnis und in der Generierung von menschenähnlichem Text freizuschalten und somit den Weg für eine intelligentere und reaktionsschnellere mobile Erfahrung zu ebnen.
Titel: PowerInfer-2: Fast Large Language Model Inference on a Smartphone
Zusammenfassung: Large language models (LLMs) on smartphones enable real-time AI assistance and privacy-preserving, offline operation. However, resource constraints of smartphones limit current deployments to small language models (SLMs), significantly compromising their capabilities. This paper introduces PowerInfer-2, a smartphone-based framework that enables fast inference for LLMs exceeding the memory capacity. The key insight is decomposing matrix operations into neuron clusters as the basic processing unit, which enables flexible scheduling and efficient I/O-computation pipelining. PowerInfer-2 leverages this neuron-cluster-based design in both computation and storage. For computation, neuron clusters with dense activations are processed on NPU, while sparse clusters use CPU. The storage engine provides a fine-grained pipeline mechanism that coordinates cluster-level computation and I/O operations, enhanced by a segmented neuron cache to reduce I/O activities. PowerInfer-2 achieves up to a 27.8x speed increase compared to state-of-the-art frameworks. PowerInfer-2 is the first system to serve a 47B LLM on a smartphone, achieving 11.68 tokens/s. Notably, these performance improvements preserve model quality with negligible accuracy degradation.
Autoren: Zhenliang Xue, Yixin Song, Zeyu Mi, Le Chen, Yubin Xia, Haibo Chen
Letzte Aktualisierung: 2024-12-12 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2406.06282
Quell-PDF: https://arxiv.org/pdf/2406.06282
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.