Avancées dans les grands modèles de langue et la puissance de calcul
Explorer la montée des outils d'IA et leur impact sur la technologie.
Zuoning Zhang, Dhruv Parikh, Youning Zhang, Viktor Prasanna
― 7 min lire
Table des matières
Les grands modèles de langage (LLMs) sont des outils d'IA puissants qui peuvent comprendre et générer du texte qui ressemble à du langage humain. Récemment, ils sont devenus super populaires, surtout avec le lancement d'applications comme ChatGPT. Ces modèles peuvent aider avec plein de tâches, comme l'écriture, la traduction, et même le support client. Leur capacité à comprendre le langage change notre façon d'interagir avec la technologie.
Avant ça, des modèles comme les réseaux de neurones récurrents (RNNs) et les réseaux à mémoire courte et longue (LSTM) étaient les principaux outils pour traiter des données séquentielles, comme le texte. Les RNNs traitent les données un morceau à la fois et gardent en mémoire les entrées passées. Ça les rend adaptés pour des tâches comme le traitement du langage. Mais, les RNNs ont souvent du mal avec de longues séquences parce qu'ils peuvent oublier des infos importantes, et les LSTMs ont été créés pour régler ce problème en utilisant un système de portes pour garder les données pertinentes sur de plus longues distances.
Bien que les RNNs et les LSTMs aient été efficaces pour certaines tâches, ils n'étaient pas assez efficaces pour traiter des entrées complexes ou de grandes quantités de données. Ça a mené à la création de modèles de Transformateurs, qui utilisent une approche différente. Au lieu d'analyser les données morceau par morceau, les transformateurs examinent tous les points de données en même temps, ce qui leur permet de trouver des connexions entre les mots et les phrases plus efficacement.
Comment fonctionnent les transformateurs
Les transformateurs, qui sont la colonne vertébrale des LLMs, utilisent un système appelé Multi-Head Self-Attention (MHSA) pour analyser les données d'entrée. Cela leur permet de considérer toutes les parties d'une phrase en même temps, ce qui aide à reconnaître les relations entre les mots, même s'ils sont loin les uns des autres. Par exemple, le transformateur GPT-3 peut gérer une longueur de contexte allant jusqu'à 2048 jetons, ce qui signifie qu'il peut examiner et connecter des idées dans un grand morceau de texte.
Deux modèles de transformateurs populaires sont BERT et GPT. BERT traite l'entrée dans les deux directions, en regardant les mots avant et après un jeton spécifique, ce qui fournit un contexte plus large. Ça aide BERT à mieux comprendre le sens de chaque mot. D'un autre côté, GPT traite l'entrée de gauche à droite, ce qui est utile pour générer du texte, car il peut prédire le mot suivant en fonction des mots qui l'ont précédé.
Défis avec les grands modèles de langage
À mesure que les LLMs sont devenus plus puissants, ils ont aussi beaucoup grossi. Par exemple, BERT a commencé avec 110 millions de paramètres, et en 2020, GPT-3 a atteint 175 milliards de paramètres. Cette rapide augmentation de taille signifie que la formation de ces modèles nécessite beaucoup de puissance de calcul et de ressources. Plus la taille du modèle est grande, plus il devient difficile de gérer l'entraînement efficacement.
Pour relever ces défis, de nouveaux systèmes matériels ont été développés. L'un d'eux est le Cerebras Wafer Scale Engine (WSE). Ce système informatique avancé est conçu spécifiquement pour les tâches d'apprentissage profond, offrant une haute performance et efficacité.
Aperçu du Cerebras WSE
Le Cerebras WSE est un accélérateur d'IA unique. Il contient une énorme quantité de puissance de calcul, avec 2,6 trillions de transistors et 850 000 cœurs. Cette configuration lui permet de faire plein de calculs en même temps, ce qui le rend adapté à l'entraînement de grands modèles de langage. Le WSE dispose aussi d'une mémoire à haute bande passante qui aide le modèle à accéder rapidement aux données et éviter les ralentissements qui peuvent se produire dans les systèmes traditionnels.
Le Cerebras WSE est conçu pour optimiser la façon dont les données circulent pendant le calcul. Il utilise une méthode où il ne traite que les données pertinentes, ce qui aide à économiser de l'énergie et à améliorer la performance. Avec cette utilisation efficace des ressources, le WSE peut gérer des données non structurées, qui sont courantes dans les tâches de réseaux de neurones.
Entraîner et analyser de grands modèles de langage
On peut évaluer à quel point les LLMs fonctionnent sur le Cerebras WSE en regardant leurs vitesses d'entraînement et le temps qu'il faut pour produire des résultats, connu sous le nom de latence d'inférence. C'est essentiel de mesurer ces facteurs pour comprendre comment le matériel soutient efficacement les tâches des LLM.
Pour l'entraînement, les modèles BERT et GPT-3 ont été testés sur le Cerebras WSE. Dans ces expériences, on a analysé comment les tailles de lot (le nombre d'échantillons traités à la fois) impactent le débit d'entraînement (le nombre d'échantillons traités par seconde). Des tailles de lot plus grandes entraînent généralement de meilleures performances, car cela permet au modèle de mieux utiliser les ressources disponibles.
Les résultats ont montré que les modèles BERT atteignaient des performances optimales à des tailles de lot spécifiques, tandis que GPT-3 profitait de plus grands lots, jusqu'à un certain point. Après un certain seuil, la performance peut diminuer à cause de la forte demande en bande passante mémoire, ce qui peut ralentir le traitement.
Performance d'inférence
En plus de l'entraînement, on a aussi analysé la rapidité avec laquelle les modèles pouvaient produire des résultats après l'entraînement. Cela se mesure en tant que latence d'inférence. Pour BERT, la latence de retour des résultats ne changeait pas beaucoup avec des tailles de lot plus grandes, ce qui indique que l'utilisation de plus gros lots peut améliorer l'efficacité globale sans affecter la qualité des résultats.
En analysant les résultats inférés des modèles, on a trouvé un schéma cohérent. Tant BERT que GPT-3 ont montré qu'ils pouvaient maintenir de bonnes performances, même avec des modèles et des tailles de lot plus grands. Cette découverte démontre comment le Cerebras WSE peut soutenir des calculs intensifs requis par des tâches de langage à grande échelle.
Analyse du modèle Roofline
Un modèle roofline aide à visualiser la performance et l'efficacité des modèles comme BERT et GPT-3. Il montre comment l'entraînement de ces modèles est limité par les ressources de calcul disponibles. En traçant la performance par rapport à l'intensité de calcul, on peut identifier à quel point les processus d'entraînement sont proches de leur potentiel maximal.
L'analyse a indiqué que l'entraînement de modèles comme BERT opère dans ce qu'on appelle une région limitée par le calcul. Cela signifie que la performance est limitée par la puissance de traitement plutôt que par la bande passante mémoire. C'est un bon signe, car cela met en évidence que le Cerebras WSE peut soutenir efficacement les besoins des grands modèles.
À l'avenir
La recherche sur les grands modèles de langage et l'utilisation de matériel avancé comme le Cerebras WSE continuera d'évoluer. Au fur et à mesure que ces modèles se développent, ils devront surmonter des défis liés à la taille et à l'efficacité computationnelle.
Il y a un potentiel pour plus d'exploration sur la façon dont différents modèles peuvent fonctionner sur ce matériel, notamment dans des domaines comme la vision par ordinateur. Avec son architecture soutenant diverses tâches, le Cerebras WSE pourrait devenir une pièce centrale dans l'avenir de l'intelligence artificielle.
En résumé, la combinaison des grands modèles de langage et de la technologie informatique avancée promet beaucoup d'applications à travers les industries. Alors qu'on continue à améliorer la façon dont on entraîne et déploie ces systèmes, on peut s'attendre à voir des utilisations encore plus innovantes de l'IA dans notre vie quotidienne.
Titre: Benchmarking the Performance of Large Language Models on the Cerebras Wafer Scale Engine
Résumé: Transformer based Large Language Models (LLMs) have recently reached state of the art performance in Natural Language Processing (NLP) and Computer Vision (CV) domains. LLMs use the Multi-Headed Self-Attention (MHSA) mechanism to capture long-range global attention relationships among input words or image patches, drastically improving its performance over prior deep learning approaches. In this paper, we evaluate the performance of LLMs on the Cerebras Wafer Scale Engine (WSE). Cerebras WSE is a high performance computing system with 2.6 trillion transistors, 850,000 cores and 40 GB on-chip memory. Cerebras WSE's Sparse Linear Algebra Compute (SLAC) cores eliminates multiply-by-zeros operations and its 40 GB of on-chip memory is uniformly distributed among SLAC cores, enabling fast local access to model parameters. Moreover, Cerebras software configures routing between cores at runtime, optimizing communication overhead among cores. As LLMs are becoming more commonly used, new hardware architectures are needed to accelerate LLMs training and inference. We benchmark the effectiveness of this hardware architecture at accelerating LLMs training and inference. Additionally, we analyze if Cerebras WSE can scale the memory-wall associated with traditionally memory-bound compute tasks using its 20 PB/s high bandwidth memory. Furthermore, we examine the performance scalability of Cerebras WSE through a roofline model. By plotting performance metrics against computational intensity, we aim to assess their effectiveness at handling high compute-intensive LLMs training and inference tasks.
Auteurs: Zuoning Zhang, Dhruv Parikh, Youning Zhang, Viktor Prasanna
Dernière mise à jour: 2024-09-22 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2409.00287
Source PDF: https://arxiv.org/pdf/2409.00287
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://arxiv.org/pdf/1706.03762
- https://arxiv.org/pdf/1708.00107
- https://ar5iv.labs.arxiv.org/html/2204.09719
- https://www.isca-archive.org/interspeech_2014/sak14_interspeech.pdf
- https://arxiv.org/pdf/1702.01923
- https://ar5iv.labs.arxiv.org/html/1801.01078v3
- https://arxiv.org/pdf/2405.18628
- https://arxiv.org/pdf/2406.10903
- https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10123162
- https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9623424
- https://arxiv.org/pdf/1810.04805
- https://arxiv.org/pdf/2005.14165
- https://www.michaelshell.org/
- https://www.michaelshell.org/tex/ieeetran/
- https://www.ctan.org/pkg/ieeetran
- https://www.ieee.org/
- https://www.latex-project.org/
- https://www.michaelshell.org/tex/testflow/
- https://www.ctan.org/pkg/ifpdf
- https://www.ctan.org/pkg/cite
- https://www.ctan.org/pkg/graphicx
- https://www.ctan.org/pkg/epslatex
- https://www.tug.org/applications/pdftex
- https://www.ctan.org/pkg/amsmath
- https://www.ctan.org/pkg/algorithms
- https://www.ctan.org/pkg/algorithmicx
- https://www.ctan.org/pkg/array
- https://www.ctan.org/pkg/subfig
- https://www.ctan.org/pkg/fixltx2e
- https://www.ctan.org/pkg/stfloats
- https://www.ctan.org/pkg/dblfloatfix
- https://www.ctan.org/pkg/url
- https://www.michaelshell.org/contact.html
- https://mirror.ctan.org/biblio/bibtex/contrib/doc/
- https://www.michaelshell.org/tex/ieeetran/bibtex/
- https://arxiv.org/pdf/2309.09142