Nouveau système pour faire tourner de gros modèles de langage sur les smartphones
Un système révolutionnaire permet des opérations LLM rapides sur les smartphones, améliorant la vie privée des utilisateurs.
― 7 min lire
Table des matières
Cet article parle d'un nouveau système conçu pour faire tourner des grands modèles de langue (LLM) rapidement sur les smartphones. Ces modèles peuvent être très gros, souvent plus grands que la Mémoire disponible sur un téléphone. Le système utilise intelligemment différents types de ressources informatiques disponibles dans le téléphone pour gérer les exigences du modèle.
Caractéristiques clés du système
Le système inclut plusieurs caractéristiques importantes. Il décompose les calculs complexes en plus petites parties, permettant d'utiliser les ressources variées du téléphone plus efficacement. Il a un moteur spécial qui adapte son fonctionnement en fonction du modèle utilisé. De plus, il sauvegarde les données fréquemment utilisées dans un cache pour accélérer les opérations et minimiser les délais causés par la lecture de la mémoire ou du stockage.
Avec ce design, le système supporte une large gamme de modèles de langue sur différents smartphones. Il peut fonctionner jusqu'à 29,2 fois plus vite que d'autres systèmes leaders actuellement disponibles. Remarquablement, c'est le premier système capable de faire tourner un modèle nommé TurboSparse-Mixtral-47B sur un smartphone, lui permettant de générer du texte à une vitesse de 11,68 tokens par seconde.
L'essor des grands modèles de langue
Les grands modèles de langue ont changé notre interaction avec la technologie. Ces modèles peuvent comprendre et générer du texte humain-like, ce qui les rend utiles pour de nombreuses tâches. Cependant, les modèles les plus sophistiqués ont besoin d'ordinateurs puissants dans des centres de données, où se trouvent des unités de traitement graphique (GPU) avancées et beaucoup de mémoire.
À mesure que les smartphones deviennent plus puissants, les chercheurs cherchent des moyens de faire tourner ces modèles directement sur les téléphones. Faire cela permettrait au téléphone d'agir comme un assistant intelligent, utilisant des données personnelles sans avoir besoin de les envoyer dans le cloud, ce qui aide à protéger la vie privée des utilisateurs.
Défis de faire tourner les LLM sur les smartphones
Malgré leurs avantages, les smartphones font face à de gros défis pour faire tourner les LLM. Ils ont généralement moins de Puissance de traitement et de mémoire par rapport aux ordinateurs haut de gamme. Les tentatives d'utiliser des modèles plus petits entraînent souvent des sacrifices en termes de performance. Par exemple, le modèle Gemini Nano de Google est réduit pour s'adapter à la mémoire d'un téléphone, mais il ne performe pas aussi bien que les modèles plus grands.
Il existe d'autres méthodes qui aident à réduire les besoins en mémoire et en calcul des LLM. Une approche est conçue pour les ordinateurs personnels, mais elle peine avec le matériel limité des smartphones. Comme le stockage mobile est plus lent et moins efficace, il devient souvent un goulet d'étranglement lorsque le système doit lire des données, causant des délais de traitement.
Présentation du nouveau système
Le nouveau système est conçu pour faire tourner de grands modèles sur les smartphones même lorsqu'ils dépassent les limites de mémoire. Il est construit sur les travaux précédents qui se concentraient sur l'utilisation efficace des ressources limitées. En reconnaissant que toutes les parties d'un grand modèle n'ont pas besoin d'être actives en même temps, le système peut fonctionner uniquement avec un groupe sélectionné de neurones, qui sont les blocs de construction du modèle.
La capacité du système à s'adapter au matériel unique des smartphones signifie qu'il peut optimiser la vitesse de génération des réponses. Il y parvient en utilisant différentes stratégies de traitement, selon ce qu'il fait à ce moment-là, que ce soit de se préparer à traiter ou de générer réellement des réponses.
Solutions de mémoire et de stockage
Un des gros défis est la mémoire limitée disponible sur les smartphones. Pour y faire face, le système utilise la mémoire efficacement en mettant en cache les données fréquemment utilisées. Il introduit également une technique qui permet un meilleur équilibre entre la lecture des données de la mémoire et l'exécution des calculs. Cela signifie qu'il peut minimiser le temps passé à attendre le chargement des données, accélérant ainsi le processus global.
Le fonctionnement du système implique des stratégies de lecture et de traitement soigneusement planifiées qui tiennent compte de la façon dont la mémoire et le stockage des smartphones interagissent. Cette planification se fait automatiquement lorsque qu'un nouveau modèle est exécuté pour la première fois sur un smartphone. En analysant à la fois le modèle et les capacités matérielles, le système peut créer un plan détaillé qui optimise la performance.
Comment fonctionne le nouveau système
Le nouveau cadre gère deux étapes clés : le pré-remplissage et le Décodage. Pendant la phase de pré-remplissage, toute l'entrée est traitée d'un coup, tandis que la phase de décodage génère un token à la fois basé sur le précédent. Chaque étape a ses propres besoins computationnels, et le système optimise chacun d'eux individuellement.
Dans la phase de pré-remplissage, le système utilise toutes les capacités des unités de traitement du smartphone, et cette phase peut gérer des lots de données plus importants efficacement. En revanche, la phase de décodage se concentre sur le traitement de petites quantités de données rapidement, ce qui lui permet de profiter de l'architecture du smartphone de manière plus équilibrée.
Performances
Évaluation desLe système a été testé sur deux modèles de smartphones, le OnePlus 12 et l'Ace 2, qui ont des capacités de traitement différentes. Il supporte une variété de LLM, y compris des tailles allant de 7 milliards à 47 milliards de paramètres. Les résultats montrent une augmentation moyenne de performance, ce qui prouve qu'il peut fonctionner efficacement sur le matériel mobile.
En particulier, lorsque les deux smartphones avaient suffisamment de mémoire, le système a considérablement réduit la quantité de mémoire nécessaire tout en fournissant des vitesses d'inférence rapides. Par exemple, en manipulant des modèles plus petits, il a atteint une réduction de presque 40 % de l'utilisation de la mémoire, tout en correspondant aux niveaux de performance trouvés dans d'autres systèmes concurrents.
Performance sur des tâches réelles
Les performances du système ont également été testées sur des tâches réelles comme le dialogue multi-tours, la génération de code et la résolution de problèmes mathématiques. Il a constamment montré des vitesses de décodage robustes à travers ces tâches. Même lorsque la mémoire était limitée, il a performé mieux que d'autres systèmes, prouvant son efficacité à gérer des applications pratiques.
Conclusion
Ce nouveau cadre représente un pas en avant significatif dans la capacité à faire tourner des grands modèles de langue sur les smartphones. En s'adaptant aux caractéristiques uniques du matériel mobile et en gérant intelligemment les calculs et le stockage des données, il peut offrir des performances impressionnantes tout en respectant les limites des appareils. À mesure qu'il continue d'évoluer, le système promet de débloquer des capacités encore plus grandes pour les appareils personnels dans la compréhension et la génération de texte humain-like, ouvrant la voie à une expérience mobile plus intelligente et réactive.
Titre: PowerInfer-2: Fast Large Language Model Inference on a Smartphone
Résumé: Large language models (LLMs) on smartphones enable real-time AI assistance and privacy-preserving, offline operation. However, resource constraints of smartphones limit current deployments to small language models (SLMs), significantly compromising their capabilities. This paper introduces PowerInfer-2, a smartphone-based framework that enables fast inference for LLMs exceeding the memory capacity. The key insight is decomposing matrix operations into neuron clusters as the basic processing unit, which enables flexible scheduling and efficient I/O-computation pipelining. PowerInfer-2 leverages this neuron-cluster-based design in both computation and storage. For computation, neuron clusters with dense activations are processed on NPU, while sparse clusters use CPU. The storage engine provides a fine-grained pipeline mechanism that coordinates cluster-level computation and I/O operations, enhanced by a segmented neuron cache to reduce I/O activities. PowerInfer-2 achieves up to a 27.8x speed increase compared to state-of-the-art frameworks. PowerInfer-2 is the first system to serve a 47B LLM on a smartphone, achieving 11.68 tokens/s. Notably, these performance improvements preserve model quality with negligible accuracy degradation.
Auteurs: Zhenliang Xue, Yixin Song, Zeyu Mi, Le Chen, Yubin Xia, Haibo Chen
Dernière mise à jour: 2024-12-12 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.06282
Source PDF: https://arxiv.org/pdf/2406.06282
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.