Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Comprendre la quantification dans les grands modèles de langage

Apprends comment la quantification rend les modèles d'IA moins chers et plus faciles à utiliser.

― 7 min lire


Quantification dans lesQuantification dans lesmodèles d'IAmoins chers et plus efficaces.Rendre les grands modèles de langage
Table des matières

Les grands modèles de langage (LLMs) sont des programmes informatiques conçus pour comprendre et générer du langage humain. Ces dernières années, ces modèles sont devenus beaucoup plus grands, avec plus de paramètres, qui sont comme des petits réglages qui aident le modèle à apprendre et à s'améliorer. Des grands noms de l'industrie, comme ChatGPT et Claude, utilisent ces modèles car ils peuvent faire plein de tâches efficacement. De nouveaux modèles comme Falcon et Llama2 sont aussi en train d'être lancés pour un usage public, et ils contiennent aussi des milliards de paramètres.

Cependant, avoir autant de paramètres rend ces modèles coûteux à faire tourner, nécessitant des ordinateurs puissants qui peuvent coûter cher. C'est un souci pour les petites organisations et les chercheurs qui veulent utiliser ces modèles mais n'ont pas les moyens. Pour aider avec ce problème, les scientifiques explorent un processus appelé Quantification, qui facilite et réduit le coût d'exploitation de ces grands modèles.

Qu'est-ce que la Quantification ?

La quantification est une technique qui réduit le nombre de bits utilisés pour représenter les valeurs avec lesquelles le modèle travaille. Ça veut dire que le modèle peut tourner en utilisant moins de mémoire et de puissance de traitement. Quand les modèles sont quantifiés, ils peuvent toujours bien marcher, produisant souvent des résultats similaires à ceux des modèles originaux qui n'étaient pas quantifiés.

Il existe différents types de méthodes de quantification. Certaines méthodes réduisent la précision des réglages du modèle avant qu'il soit utilisé, tandis que d'autres le font durant le processus d'entraînement. Ici, on se concentre sur la quantification après entraînement, qui se produit après que le modèle a déjà été entraîné.

Impact de la Quantification sur la Performance du Modèle

Les scientifiques ont découvert que même si les modèles quantifiés peuvent être moins chers à faire tourner, leur comportement peut changer en fonction de réglages appelés Hyperparamètres. Les hyperparamètres incluent des choses comme la température, qui contrôle à quel point les réponses du modèle sont aléatoires ou prévisibles, et le nombre maximum de nouveaux mots qu'il peut générer à la fois.

Quand des études ont examiné comment les modèles quantifiés réagissent à différents hyperparamètres, ils ont trouvé que deux types spécifiques de quantification 4 bits, nommés nf4 et fp4, fonctionnent bien et ont des caractéristiques similaires. Cependant, quand ils ont changé le réglage de la température, les modèles se comportaient différemment. Par exemple, nf4 montrait plus de stabilité lorsque la température était plus basse, tandis que fp4 fonctionnait mieux avec d'autres modèles.

Préoccupations concernant la Mémoire et la Vitesse

Un point important à considérer sur ces modèles est combien de mémoire ils nécessitent et la vitesse à laquelle ils peuvent générer des réponses. Quand les modèles sont quantifiés, ils peuvent utiliser beaucoup moins de mémoire. Cependant, toutes les méthodes de quantification ne se valent pas. Certaines méthodes ralentissent la vitesse à laquelle un modèle peut générer du texte. Par exemple, la quantification INT8 peut entraîner des performances beaucoup plus lentes par rapport à d'autres méthodes, même si ça économise plus de mémoire.

Pour les modèles avec des milliards de paramètres, la mémoire requise peut toujours être un défi. Même avec la quantification, certains modèles ne rentrent pas dans les unités de traitement graphique (GPU) standard utilisées pour faire tourner ce genre de programmes. Ça limite la possibilité d'utiliser des modèles plus gros sur des configurations classiques.

Tester les Modèles

Pour voir comment ces modèles quantifiés se comportent, les chercheurs ont mené des tests avec une variété de modèles allant de 3 milliards à 70 milliards de paramètres. Ils ont créé plusieurs prompts ou questions et mesuré combien de mots en double étaient générés dans les réponses du modèle. C'était un indicateur de la performance du modèle.

Dans leurs tests, ils ont découvert qu'en augmentant le nombre maximum de tokens - ou la longueur de la réponse - le nombre de mots en double augmentait aussi, ce qui suggérait que la qualité de la génération pouvait diminuer. Ils ont aussi trouvé que lorsqu'on utilisait un réglage appelé top k, où on limite le nombre de choix de mots disponibles pour le modèle, avoir top k réglé à 1 entraînait souvent moins de mots en double. Cependant, cet effet diminuait quand top k était réglé à 5 ou plus.

Comparer Différents Modèles

L'analyse a montré que différentes méthodes de quantification pouvaient affecter à quel point la sortie du modèle était répétitive. Certaines méthodes entraînaient moins de doublons tandis que d'autres en permettaient plus. Par exemple, la méthode int8 limitait considérablement le nombre de mots, produisant 30 à 50% de moins que les autres méthodes. Ça a montré qu'il y a un compromis entre combien de mémoire est économisée et à quel point le modèle peut bien générer du texte.

Malgré les avantages de la quantification, certains modèles, comme Bfloat16, produisaient souvent plus de mots et avaient une meilleure vitesse d'inférence par rapport aux options quantifiées. Cependant, ils pouvaient aussi générer plus de mots en double, soulignant leurs limites.

Directions Futures

Les chercheurs cherchent continuellement des moyens d'améliorer ces modèles et leurs méthodes de quantification. Il y a un travail en cours pour comprendre les causes de la génération de mots redondants dans les sorties des modèles et comment différents designs de modèles impactent la performance.

Les résultats des tests de divers modèles indiquent qu'il est crucial d'avoir un équilibre entre la vitesse, l'exactitude et l'utilisation de la mémoire. Les meilleurs choix dépendent souvent des besoins spécifiques d'un projet, y compris le type de modèle utilisé et les ressources disponibles.

La quantification a montré son potentiel pour rendre les grands modèles de langage plus accessibles et plus faciles à utiliser, mais à mesure que la technologie évolue, plus d'études sont nécessaires pour affiner ces techniques. L'objectif ultime est de permettre à tout le monde, des petites organisations aux grandes entreprises, de profiter des grands modèles de langage sans coûts prohibitifs.

Conclusion

Alors que les grands modèles de langage continuent à croître et à se développer, la quantification reste un outil vital pour optimiser leur performance. En réduisant l'utilisation de mémoire et les coûts opérationnels, la quantification ouvre la porte à un usage plus répandu de ces outils puissants. Cependant, il faut être prudent pour comprendre les changements de performance qui viennent avec ces réductions.

Avec la recherche en cours et l'adaptation des méthodes de quantification, le paysage du traitement du langage naturel devrait devenir encore plus dynamique et accessible pour les utilisateurs partout.

Source originale

Titre: Understanding the Impact of Post-Training Quantization on Large Language Models

Résumé: Large language models (LLMs) are rapidly increasing in size, with the number of parameters becoming a key factor in the success of many commercial models, such as ChatGPT, Claude, and Bard. Even the recently released publicly accessible models for commercial usage, such as Falcon and Llama2, come equipped with billions of parameters. This significant increase in the number of parameters makes deployment and operation very costly. The remarkable progress in the field of quantization for large neural networks in general and LLMs in particular, has made these models more accessible by enabling them to be deployed on consumer-grade GPUs. Quantized models generally demonstrate comparable performance levels to their unquantized base counterparts. Nonetheless, there exists a notable gap in our comprehensive understanding of how these quantized models respond to hyperparameters, such as temperature, max new tokens, and topk, particularly for next word prediction. The present analysis reveals that nf4 and fp4 are equally proficient 4-bit quantization techniques, characterized by similar attributes such as inference speed, memory consumption, and the quality of generated content. the study identifies nf4 as displaying greater resilience to temperature variations in the case of the llama2 series of models at lower temperature, while fp4 and fp4-dq proves to be a more suitable choice for falcon series of models. It is noteworthy that, in general, 4-bit quantized models of varying sizes exhibit higher sensitivity to temperature in the range of 0.5 to 0.8, unlike their unquantized counterparts. Additionally, int8 quantization is associated with significantly slower inference speeds, whereas unquantized bfloat16 models consistently yield the fastest inference speeds across models of all sizes.

Auteurs: Somnath Roy

Dernière mise à jour: 2023-09-17 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2309.05210

Source PDF: https://arxiv.org/pdf/2309.05210

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus de l'auteur

Articles similaires