Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Künstliche Intelligenz

Verbesserung von On-Device LLMs für bessere Leistung

Neues Inferenzsystem verbessert die Geschwindigkeit und Effizienz von On-Device LLMs.

― 6 min Lesedauer


SchnellereSchnellereKI-Verarbeitung direktauf dem Gerätspart dabei Energie.Neues System beschleunigt LLMs und
Inhaltsverzeichnis

On-Device grosse Sprachmodelle (LLMs) verändern, wie wir mit Technik interagieren und ermöglichen Anwendungen wie das Automatisieren von Benutzeroberflächen und das Erstellen personalisierter E-Mail-Antworten, ohne die Privatsphäre der Nutzer zu gefährden. Aber die Nutzung dieser LLMs auf mobilen Geräten bringt Herausforderungen mit sich, hauptsächlich wegen langsamer Verarbeitungsgeschwindigkeiten. Dieser Artikel untersucht, wie man die Geschwindigkeit und Effizienz von LLMs verbessern kann, während die Nutzerdaten sicher bleiben.

Die Herausforderung der Inferenzlatenz

Ein grosses Problem für On-Device LLMs ist ihre lange Inferenzlatenz, besonders während der Anfangsverarbeitung, bekannt als Prefill. Diese Phase benötigt eine Menge Informationen, um Inhalte zu generieren, die personalisiert und genau erscheinen, was auf gängigen mobilen Prozessoren viel zu lange dauern kann.

Langer Kontext ist entscheidend für Aufgaben wie das Beantworten von E-Mails oder das Automatisieren von Aktionen basierend auf Benutzerbefehlen, die oft die Verarbeitung von Hunderten oder Tausenden von Tokens erfordern. Die langsame Geschwindigkeit bestehender mobiler CPUs und GPUs begrenzt die Leistung von LLMs in der realen Anwendung.

Ein neuer Ansatz

Um diese Probleme anzugehen, wurde ein neues LLM-Inferenzsystem entwickelt, das effizient mobile Neural Processing Units (NPUs) nutzt. NPUs sind spezialisierte Prozessoren, die sich hervorragend für spezifische Aufgaben wie Deep-Learning-Berechnungen eignen und schnellere Geschwindigkeiten sowie einen geringeren Energieverbrauch versprechen.

Durch die Anwendung einer Methode, die sowohl Algorithmus- als auch Systemdesignstrategien kombiniert, spricht dieser neue Ansatz die Lücken zwischen LLM-Architekturen und den Fähigkeiten moderner NPUs an. Wichtige Strategien umfassen die Umstrukturierung von Eingaben und die Modellverarbeitung auf drei verschiedenen Ebenen.

Strategien zur Verbesserung

1. Umstrukturierung von Eingaben

Die erste Strategie besteht darin, Eingaben variabler Länge in kleinere, feste Stücke zu zerlegen. Diese Methode erhält die notwendigen Datenbeziehungen und erleichtert es dem System, damit umzugehen.

2. Optimierung von Tensorberechnungen

Bei der zweiten Strategie liegt der Fokus darauf, wichtige Ausreisser-Datenpunkte zu identifizieren, um diese auf mobilen CPUs oder GPUs anstatt auf den NPUs zu verarbeiten. Diese Optimierung ermöglicht es dem System, Berechnungen zu beschleunigen, indem unnötige Verarbeitung minimiert wird.

3. Effiziente Planung

Der dritte Ansatz beschäftigt sich mit der Planung von Verarbeitungsaufgaben, sodass die einzigartigen Merkmale von CPU/GPU und NPU berücksichtigt werden. Durch die flexible Anordnung von Aufgaben kann das System die verfügbaren Verarbeitungsressourcen besser nutzen und Verzögerungen reduzieren.

Energieeinsparungen

Im Vergleich zu bestehenden Systemen erreicht dieses neue LLM-Framework bemerkenswerte Energieeffizienz. Forschungen zeigen, dass es im Durchschnitt zwischen 30 % und 60 % Energieeinsparungen bei Inferenzaufgaben erreichen kann. Durch die effiziente Nutzung mobiler NPUs kann das System Berechnungen durchführen, ohne dass der Akku des Geräts schnell leer wird.

Praktische Anwendungen

Die praktischen Anwendungen dieser Technologie sind breit gefächert und wirkungsvoll. Beispielsweise werden Aufgaben wie das Übersetzen von Benutzerbefehlen in automatisierte Aktionen auf einem mobilen Gerät schneller und reibungsloser. Auch beim Beantworten von E-Mails wird der Prozess für die Nutzer schneller und effizienter, wodurch häufige Frustrationen bei der mobilen Kommunikation verringert werden.

Leistung im Vergleich

Im Test gegen andere beliebte mobile LLMs schneidet dieses neue Inferenzsystem deutlich besser ab. Im Durchschnitt zeigt es sich, dass es während der Prefill-Phase etwa 22 Mal schneller ist, was zu schnelleren Antworten in realen Anwendungsszenarien führt.

Automatisierung beschleunigen

Für automatisierte Aufgaben wie die Verwaltung von Benutzeroberflächen kann das neue System Fünf-Schritte-Aufgaben, die zuvor fast 40 Sekunden benötigten, jetzt in einem Bruchteil dieser Zeit erledigen. Diese Beschleunigung bedeutet, dass Nutzer ihre Aufgaben ohne unnötiges Warten erledigen können, was ihr Gesamterlebnis mit mobiler Technologie verbessert.

Umgang mit langen Kontexten

Ein weiterer entscheidender Vorteil des neuen Systems ist die Fähigkeit, längere Kontextlängen effektiver zu handhaben. Neuere Modelle wurden mit Unterstützung für Kontextlängen von bis zu 32.000 Tokens entwickelt. Diese Fähigkeit ermöglicht eine bessere Personalisierung und ein verbessertes Kontextbewusstsein in Anwendungen.

Die Rolle der mobilen NPUs

Mobile NPUs sind jetzt in den meisten modernen mobilen Geräten integriert und können Millionen von Operationen pro Sekunde ausführen. Diese Chips sind darauf ausgelegt, Deep-Learning-Prozesse zu erleichtern, was sie zu einer idealen Option macht, um LLM-Aufgaben zu beschleunigen.

Trotz ihrer Vorteile wurden frühere Versuche, NPUs für LLM-Inferenz zu nutzen, von Herausforderungen begleitet. Beispielsweise führte die Anpassung an die variablen Eingaben, die typischerweise in der LLM-Verarbeitung vorkommen, oft zu keinen Geschwindigkeitsgewinnen.

Wichtige Innovationen

Das neue LLM-System beinhaltet mehrere innovative Funktionen, die es ihm ermöglichen, die Herausforderungen bei der Nutzung von NPUs für LLM-Inferenz zu überwinden.

Chunk-Sharing-Ansätze

Eine der wichtigsten Innovationen ist die Verwendung von Chunk-Sharing-Grafiken. Durch das Zerlegen der Eingabe in feste Stücke, die unabhängig verarbeitet werden können, kann das System die benötigte Zeit zur Vorbereitung und Ausführung dieser Berechnungen reduzieren, während es die notwendigen Datenbeziehungen aufrechterhält.

Shadow Outlier Execution

Dieser Ansatz beinhaltet die Identifizierung und Verarbeitung von Ausreisser-Aktivierungsdaten, ohne die Effizienz der NPUs zu beeinträchtigen. Durch die parallele Ausführung dieser Ausreisser-Berechnungen auf der CPU oder GPU mit den Operationen der NPU minimiert das System Verzögerungen und erzielt bessere Genauigkeit.

Flexible Subgraph-Ausführung

Um die Effizienz weiter zu verbessern, integriert das System eine Methode zur Ausführung von Verarbeitungsaufgaben in einer nicht sequenziellen Reihenfolge. Diese Flexibilität erlaubt es dem System, Verzögerungen aufgrund unterschiedlicher Prozessor Geschwindigkeiten auszugleichen, was letztendlich zu schnelleren Antwortzeiten führt.

Leistungsevaluierung

Um die Vorteile des neuen LLM-Systems sicherzustellen, wurden umfangreiche Tests unter verschiedenen Bedingungen und mit verschiedenen Benchmarks durchgeführt. Die Auswertung bestätigte, dass das neue System in allen wichtigen Metriken, einschliesslich Prefill-Geschwindigkeit, Energieeffizienz und Gesamtgenauigkeit, durchweg besser abschneidet als bestehende Alternativen.

Praktische Umsetzung

Die praktischen Auswirkungen dieses neuen Frameworks sind erheblich. Durch die nahtlose Integration mit verschiedenen mobilen Geräten können Nutzer von diesem fortschrittlichen LLM-System profitieren, ohne ihre bestehenden Anwendungen oder Hardware ändern zu müssen.

Kompatibilität mit bestehenden Frameworks

Das System ist kompatibel mit zuvor etablierten Frameworks und kann leicht in bestehende Anwendungen integriert werden. Diese Flexibilität ermöglicht es Entwicklern, von der verbesserten Geschwindigkeit und Effizienz zu profitieren, ohne ihre Systeme grundlegend überarbeiten zu müssen.

Verbesserung der Benutzererfahrung

Für Endnutzer bedeutet das schnellere Antworten und reibungslosere Interaktionen mit mobilen Anwendungen. Egal, ob es um das Automatisieren von Aufgaben oder das Generieren von Inhalten geht, die Nutzer können eine optimierte Erfahrung geniessen, die die mobile Technologie noch leistungsfähiger und benutzerfreundlicher macht.

Fazit

Der Fortschritt der On-Device LLMs durch dieses innovative Inferenzsystem markiert einen bedeutenden Schritt in der mobilen Technologie. Mit verbesserter Geschwindigkeit, besserer Energieeffizienz und verbesserter Handhabung komplexer Aufgaben werden die Nutzer eine lohnendere Erfahrung mit ihren mobilen Geräten geniessen. Die Integration mobiler NPUs in die LLM-Verarbeitung eröffnet neue Möglichkeiten für Anwendungen in verschiedenen Bereichen und steigert so sowohl den persönlichen Komfort als auch die Produktivität.

Die Ergebnisse der umfangreichen Leistungsevaluierungen sprechen für sich, und zeigen ein System, das nicht nur die Erwartungen erfüllt, sondern übertrifft und den Weg für zukünftige Entwicklungen in der mobilen KI und maschinellen Lerntechnologien ebnet.

Originalquelle

Titel: Fast On-device LLM Inference with NPUs

Zusammenfassung: On-device inference for Large Language Models (LLMs), driven by increasing privacy concerns and advancements of mobile-sized models, has gained significant interest. However, even mobile-sized LLMs (e.g., Gemma-2B) encounter unacceptably high inference latency, often bottlenecked by the prefill stage in tasks like screen UI understanding. We present llm.npu, the first LLM inference system utilizing on-device Neural Processing Unit (NPU) offloading to reduce prefill latency. llm.npu enhances NPU offloading efficiency by re-constructing the prompt and model in three levels: (1) At prompt level, it divides variable-length prompts into multiple fixed-sized chunks while maintaining data dependencies; (2) At tensor level, it identifies and extracts significant outliers to run on the CPU/GPU in parallel with minimal overhead; (3) At block level, it schedules Transformer blocks in an out-of-order manner to the CPU/GPU and NPU based on their hardware affinity and sensitivity to accuracy. Compared to competitive baselines, llm.npu achieves 22.4x faster prefill speed and 30.7$\times$ energy savings on average, and up to 32.8x speedup in an end-to-end real-world application. For the first time, llm.npu achieves more than 1,000 tokens/sec prefilling for a billion-sized model.

Autoren: Daliang Xu, Hao Zhang, Liming Yang, Ruiqi Liu, Gang Huang, Mengwei Xu, Xuanzhe Liu

Letzte Aktualisierung: 2024-12-15 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2407.05858

Quell-PDF: https://arxiv.org/pdf/2407.05858

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel