Nouveau système pour faire tourner de gros modèles de langage sur les smartphones

Table des matières

Source originale
Liens de référence

Cet article parle d'un nouveau système conçu pour faire tourner des grands modèles de langue (LLM) rapidement sur les smartphones. Ces modèles peuvent être très gros, souvent plus grands que la Mémoire disponible sur un téléphone. Le système utilise intelligemment différents types de ressources informatiques disponibles dans le téléphone pour gérer les exigences du modèle.

Caractéristiques clés du système

Le système inclut plusieurs caractéristiques importantes. Il décompose les calculs complexes en plus petites parties, permettant d'utiliser les ressources variées du téléphone plus efficacement. Il a un moteur spécial qui adapte son fonctionnement en fonction du modèle utilisé. De plus, il sauvegarde les données fréquemment utilisées dans un cache pour accélérer les opérations et minimiser les délais causés par la lecture de la mémoire ou du stockage.

Avec ce design, le système supporte une large gamme de modèles de langue sur différents smartphones. Il peut fonctionner jusqu'à 29,2 fois plus vite que d'autres systèmes leaders actuellement disponibles. Remarquablement, c'est le premier système capable de faire tourner un modèle nommé TurboSparse-Mixtral-47B sur un smartphone, lui permettant de générer du texte à une vitesse de 11,68 tokens par seconde.

L'essor des grands modèles de langue

Les grands modèles de langue ont changé notre interaction avec la technologie. Ces modèles peuvent comprendre et générer du texte humain-like, ce qui les rend utiles pour de nombreuses tâches. Cependant, les modèles les plus sophistiqués ont besoin d'ordinateurs puissants dans des centres de données, où se trouvent des unités de traitement graphique (GPU) avancées et beaucoup de mémoire.

À mesure que les smartphones deviennent plus puissants, les chercheurs cherchent des moyens de faire tourner ces modèles directement sur les téléphones. Faire cela permettrait au téléphone d'agir comme un assistant intelligent, utilisant des données personnelles sans avoir besoin de les envoyer dans le cloud, ce qui aide à protéger la vie privée des utilisateurs.

Défis de faire tourner les LLM sur les smartphones

Malgré leurs avantages, les smartphones font face à de gros défis pour faire tourner les LLM. Ils ont généralement moins de Puissance de traitement et de mémoire par rapport aux ordinateurs haut de gamme. Les tentatives d'utiliser des modèles plus petits entraînent souvent des sacrifices en termes de performance. Par exemple, le modèle Gemini Nano de Google est réduit pour s'adapter à la mémoire d'un téléphone, mais il ne performe pas aussi bien que les modèles plus grands.

Il existe d'autres méthodes qui aident à réduire les besoins en mémoire et en calcul des LLM. Une approche est conçue pour les ordinateurs personnels, mais elle peine avec le matériel limité des smartphones. Comme le stockage mobile est plus lent et moins efficace, il devient souvent un goulet d'étranglement lorsque le système doit lire des données, causant des délais de traitement.

Présentation du nouveau système

Le nouveau système est conçu pour faire tourner de grands modèles sur les smartphones même lorsqu'ils dépassent les limites de mémoire. Il est construit sur les travaux précédents qui se concentraient sur l'utilisation efficace des ressources limitées. En reconnaissant que toutes les parties d'un grand modèle n'ont pas besoin d'être actives en même temps, le système peut fonctionner uniquement avec un groupe sélectionné de neurones, qui sont les blocs de construction du modèle.

La capacité du système à s'adapter au matériel unique des smartphones signifie qu'il peut optimiser la vitesse de génération des réponses. Il y parvient en utilisant différentes stratégies de traitement, selon ce qu'il fait à ce moment-là, que ce soit de se préparer à traiter ou de générer réellement des réponses.

Solutions de mémoire et de stockage

Un des gros défis est la mémoire limitée disponible sur les smartphones. Pour y faire face, le système utilise la mémoire efficacement en mettant en cache les données fréquemment utilisées. Il introduit également une technique qui permet un meilleur équilibre entre la lecture des données de la mémoire et l'exécution des calculs. Cela signifie qu'il peut minimiser le temps passé à attendre le chargement des données, accélérant ainsi le processus global.

Le fonctionnement du système implique des stratégies de lecture et de traitement soigneusement planifiées qui tiennent compte de la façon dont la mémoire et le stockage des smartphones interagissent. Cette planification se fait automatiquement lorsque qu'un nouveau modèle est exécuté pour la première fois sur un smartphone. En analysant à la fois le modèle et les capacités matérielles, le système peut créer un plan détaillé qui optimise la performance.

Comment fonctionne le nouveau système

Le nouveau cadre gère deux étapes clés : le pré-remplissage et le Décodage. Pendant la phase de pré-remplissage, toute l'entrée est traitée d'un coup, tandis que la phase de décodage génère un token à la fois basé sur le précédent. Chaque étape a ses propres besoins computationnels, et le système optimise chacun d'eux individuellement.

Dans la phase de pré-remplissage, le système utilise toutes les capacités des unités de traitement du smartphone, et cette phase peut gérer des lots de données plus importants efficacement. En revanche, la phase de décodage se concentre sur le traitement de petites quantités de données rapidement, ce qui lui permet de profiter de l'architecture du smartphone de manière plus équilibrée.

Évaluation des Performances

Le système a été testé sur deux modèles de smartphones, le OnePlus 12 et l'Ace 2, qui ont des capacités de traitement différentes. Il supporte une variété de LLM, y compris des tailles allant de 7 milliards à 47 milliards de paramètres. Les résultats montrent une augmentation moyenne de performance, ce qui prouve qu'il peut fonctionner efficacement sur le matériel mobile.

En particulier, lorsque les deux smartphones avaient suffisamment de mémoire, le système a considérablement réduit la quantité de mémoire nécessaire tout en fournissant des vitesses d'inférence rapides. Par exemple, en manipulant des modèles plus petits, il a atteint une réduction de presque 40 % de l'utilisation de la mémoire, tout en correspondant aux niveaux de performance trouvés dans d'autres systèmes concurrents.

Performance sur des tâches réelles

Les performances du système ont également été testées sur des tâches réelles comme le dialogue multi-tours, la génération de code et la résolution de problèmes mathématiques. Il a constamment montré des vitesses de décodage robustes à travers ces tâches. Même lorsque la mémoire était limitée, il a performé mieux que d'autres systèmes, prouvant son efficacité à gérer des applications pratiques.

Conclusion

Ce nouveau cadre représente un pas en avant significatif dans la capacité à faire tourner des grands modèles de langue sur les smartphones. En s'adaptant aux caractéristiques uniques du matériel mobile et en gérant intelligemment les calculs et le stockage des données, il peut offrir des performances impressionnantes tout en respectant les limites des appareils. À mesure qu'il continue d'évoluer, le système promet de débloquer des capacités encore plus grandes pour les appareils personnels dans la compréhension et la génération de texte humain-like, ouvrant la voie à une expérience mobile plus intelligente et réactive.

Nouveau système pour faire tourner de gros modèles de langage sur les smartphones

Un système révolutionnaire permet des opérations LLM rapides sur les smartphones, améliorant la vie privée des utilisateurs.

Caractéristiques clés du système

L'essor des grands modèles de langue

Défis de faire tourner les LLM sur les smartphones

Présentation du nouveau système

Solutions de mémoire et de stockage

Comment fonctionne le nouveau système

Évaluation des Performances

Performance sur des tâches réelles

Conclusion

Liens de référence

Sujets référencés

Nouveau système pour faire tourner de gros modèles de langage sur les smartphones

Un système révolutionnaire permet des opérations LLM rapides sur les smartphones, améliorant la vie privée des utilisateurs.

#Caractéristiques clés du système

#L'essor des grands modèles de langue

#Défis de faire tourner les LLM sur les smartphones

#Présentation du nouveau système

#Solutions de mémoire et de stockage

#Comment fonctionne le nouveau système

#Évaluation des Performances

#Performance sur des tâches réelles

#Conclusion

Liens de référence

Sujets référencés

Caractéristiques clés du système

L'essor des grands modèles de langue

Défis de faire tourner les LLM sur les smartphones

Présentation du nouveau système

Solutions de mémoire et de stockage

Comment fonctionne le nouveau système

Évaluation des Performances

Performance sur des tâches réelles

Conclusion