L'essor et les défis des grands modèles de langage
Un aperçu des LLM, en parlant de leurs applis et des défis principaux.
― 10 min lire
Table des matières
Les Grands Modèles de Langage (GML) sont rapidement devenus un sujet chaud en apprentissage automatique. En quelques années, ils sont passés de quelque chose qui n'existait pas à être partout dans les discussions technologiques. Comme le domaine évolue vite, c’est dur de suivre les problèmes qui doivent encore être réglés et ceux qui ont déjà montré des succès. Cet article a pour but d’établir une liste claire des problèmes en cours et des domaines où les GML fonctionnent bien. Comme ça, les chercheurs peuvent mieux comprendre l’état actuel du domaine.
Défis des GML
Quand on travaille avec les GML, il y a des questions à se poser :
Défis de conception : Ce sont des problèmes qu’on rencontre avant que le modèle ne soit déployé.
Défis comportementaux : Ceux-ci apparaissent après que le modèle est en ligne.
Défis scientifiques : Ce sont des problèmes de recherche qui ralentissent le progrès.
L’objectif est de répondre à deux questions principales :
- Quels problèmes sont encore présents ?
- Dans quels domaines les GML sont-ils utilisés, et qu’est-ce qui limite leur utilisation ?
Concevoir et Déployer des Modèles
Construire des GML efficaces signifie faire des choix importants avant leur mise en service. Une fois qu'ils sont en ligne, leur comportement peut entraîner de nouveaux problèmes. C’est comme un cycle continu où leur déploiement entraîne de nouveaux défis à résoudre.
Données
Problèmes Ouverts avec lesUn gros souci avec les GML, c’est la quantité énorme de données utilisées pour l’Entraînement. Collecter ces données peut créer des "quasi-doublons", ce qui peut nuire à l’efficacité des modèles. Par exemple, quand des données similaires sont traitées, le modèle pourrait juste rappeler ce qu’il a déjà "vu" au lieu de générer de nouvelles idées.
La manière dont l’information est collectée et filtrée joue un grand rôle là-dedans. Une approche standard consiste à utiliser des algorithmes pour trouver et enlever les doublons, mais ça peut en rater beaucoup qui sont juste similaires mais pas exactement les mêmes.
Il y a aussi le souci des métriques de Performance. Si les données d’entraînement se mélangent avec les données de test, ça peut gonfler les résultats de performance. Un modèle pourrait juste répéter ce qu'il a appris au lieu de montrer des compétences réelles. Identifier et enlever les chevauchements entre les données d’entraînement et de test est compliqué mais nécessaire.
Risques de Données Personnelles
Un autre souci majeur, c’est la découverte d’informations personnelles, comme des numéros de téléphone ou des emails, dans les données d’entraînement. Un GML pourrait sortir ces données lorsqu'on le lui demande, causant des problèmes de vie privée. Le défi est d’identifier et de filtrer ces informations sensibles pendant l’entraînement.
Comprendre les Données
Au fil du temps, les ensembles de données utilisés pour entraîner les GML ont beaucoup évolué. Ils incluent maintenant des collections de textes plus diversifiées et plus grandes, contribuant à leur succès. Cependant, toutes ces données ne sont pas disponibles publiquement. Il y a aussi une demande croissante pour différents types de données pour que les modèles comprennent mieux différents domaines.
Équilibrer Qualité et Quantité
Avec la disponibilité croissante de données, le défi reste de trouver le bon équilibre entre la qualité et la quantité de ces données. Les recherches montrent que mélanger des données provenant de différentes sources peut améliorer la performance, mais trouver le bon mélange reste une question ouverte.
Ajustement Fin et Entraînement de Tâches
Ajuster les modèles pour des tâches spécifiques signifie souvent devoir jongler avec plusieurs types de données. Cet équilibre peut être difficile à atteindre car différentes tâches nécessitent différents types d’entrées d’entraînement. Les développements récents ont montré comment l’ajustement fin peut mener à de meilleurs résultats avec très peu d’efforts supplémentaires.
Problèmes de Tokenisation
La tokenisation est le processus de décomposer les mots ou caractères en plus petites unités pour que le modèle puisse comprendre. Bien que la plupart des modèles utilisent différentes techniques de tokenisation, il y a des inconvénients sur la façon dont cela affecte la performance à travers différentes langues. Cela introduit de la complexité, surtout dans les cas où les langues diffèrent beaucoup en structure.
Coûts d’Entraînement
Entraîner des GML est extrêmement coûteux. Les ressources nécessaires peuvent atteindre des millions de dollars à cause des longues heures de puissance de calcul requises. Cela soulève des questions sur la durabilité et si les résultats valent vraiment l’investissement.
Performance et Efficacité
Un autre défi pour les GML est leur performance dans le temps. À mesure que les modèles grandissent, les retours sur l’entraînement deviennent plus petits, ce qui veut dire que simplement devenir plus gros ne mène pas toujours à de meilleurs résultats. Cela crée un besoin de méthodes d’entraînement plus efficaces et de comprendre comment mieux allouer les ressources pour obtenir les meilleurs résultats.
Métriques de Performance
Définir à quoi ressemble le succès dans l’évaluation des GML est aussi compliqué. Il y a diverses tâches contre lesquelles les modèles peuvent être testés, mais les critères de succès peuvent varier énormément. De ce fait, avoir une image claire des capacités d’un modèle peut être obscurcie par des métriques qui ne reflètent pas fidèlement la performance à travers différentes tâches.
Facteurs Contraignants
Du côté de l’application, certains facteurs limitent comment les GML peuvent être utilisés. Des choses comme les limites de mémoire dans les appareils peuvent restreindre l’échelle à laquelle les modèles fonctionnent. À mesure qu’un modèle devient plus grand, la capacité à le déployer efficacement sans latence excessive devient plus limitée.
Domaines d’Application des GML
Bien qu'il y ait beaucoup de défis, les GML trouvent aussi des applications dans divers domaines. Les domaines suivants mettent en avant quelques-unes des utilisations les plus courantes des GML.
Chatbots
Les chatbots sont peut-être l’utilisation la plus connue des GML. Ces agents de dialogue allient la récupération d’informations et la génération de texte pour fournir aux utilisateurs des réponses utiles dans les conversations. En appliquant un design soigné et en se concentrant sur la sécurité et l’information factuelle, ces systèmes peuvent améliorer l'interaction utilisateur.
Santé et Médecine
Dans le domaine de la santé, les GML peuvent aider avec des tâches comme répondre à des questions médicales, extraire des informations de notes, et prédire des résultats de santé. Leur capacité à analyser de grandes quantités de données en fait des outils précieux pour les professionnels.
Secteur Juridique
Dans le droit, les modèles peuvent aider à répondre à des questions, comprendre des textes juridiques complexes et fournir des analyses sur des affaires. Cependant, leur performance peut être variable et nécessite souvent un ajustement fin pour de meilleurs résultats.
Génération de Code et Programmation
Les GML se sont révélés utiles pour générer du code dans divers langages de programmation. Ils peuvent aider à compléter des extraits de code, fournir des explications pour du code, et même déboguer du code existant. De telles applications augmentent la productivité des développeurs.
Travail Créatif
Dans les domaines créatifs, les GML peuvent générer des histoires, des scripts et de la poésie. Ils peuvent aider à rationaliser le processus créatif en agissant comme co-auteurs dans la génération de contenu. Cependant, les limitations de la fenêtre de Contexte peuvent affecter leur capacité à maintenir la cohérence sur des travaux plus longs.
Modélisation de l'Interaction Humaine
Les GML peuvent modéliser le comportement humain et simuler des interactions sociales. Cela peut être utile en sciences sociales pour étudier les relations et les comportements dans des environnements contrôlés, permettant aux chercheurs de collecter des données sans impliquer de participants humains.
Travail de Connaissance
Dans les tâches professionnelles, les GML peuvent aider à l’analyse de données, résumer des informations et répondre à des questions. Avec les bons améliorations, ils peuvent soutenir une large gamme de tâches à travers divers domaines.
Limitations et Problèmes
Malgré leurs applications, les GML rencontrent plusieurs limitations qui peuvent affecter leur efficacité.
Limitations de Contexte
De nombreuses tâches nécessitent de comprendre des textes longs, mais les GML peuvent seulement gérer une quantité limitée d’informations à la fois. Cela peut mener à une compréhension fragmentée et entraver la performance dans des scénarios complexes.
Informations Obsolètes
Les GML peuvent contenir des informations obsolètes s'ils ne sont pas mis à jour régulièrement. C’est particulièrement préoccupant dans des domaines comme la santé et le droit, où les connaissances peuvent rapidement évoluer.
Désalignement avec les Valeurs Humaines
Les résultats des GML ne s’alignent pas toujours avec les valeurs ou attentes humaines. Cela peut mener à des conséquences inattendues, rendant important d’affiner comment ces modèles sont alignés avec les normes sociétales.
Problèmes Éthiques
Les enjeux de confidentialité se posent avec les GML, surtout lorsque des données personnelles sont impliquées. Trouver un équilibre entre les bénéfices de l’utilisation de cette technologie et les considérations éthiques est une préoccupation continue.
Hallucinations
Les GML peuvent générer des informations convaincantes mais incorrectes, connues sous le nom "d'hallucinations". Cela soulève des préoccupations sur leur fiabilité et la nécessité de vérification des faits pour garantir des réponses précises.
Conclusion
Les Grands Modèles de Langage offrent des applications prometteuses dans divers domaines, mais ils présentent des défis significatifs que les chercheurs et les développeurs doivent relever. Une amélioration continue de la compréhension de leurs limitations et de l'amélioration de leurs capacités sera cruciale pour les développements futurs dans ce domaine d'apprentissage automatique en rapide évolution.
Titre: Challenges and Applications of Large Language Models
Résumé: Large Language Models (LLMs) went from non-existent to ubiquitous in the machine learning discourse within a few years. Due to the fast pace of the field, it is difficult to identify the remaining challenges and already fruitful application areas. In this paper, we aim to establish a systematic set of open problems and application successes so that ML researchers can comprehend the field's current state more quickly and become productive.
Auteurs: Jean Kaddour, Joshua Harris, Maximilian Mozes, Herbie Bradley, Roberta Raileanu, Robert McHardy
Dernière mise à jour: 2023-07-19 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2307.10169
Source PDF: https://arxiv.org/pdf/2307.10169
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://eprint.iacr.org/2019/1393.pdf
- https://github.com/google-research/text-to-text-transfer-transformer
- https://github.com/google-research/multilingual-t5
- https://github.com/google/flaxformer/tree/main/flaxformer/architectures/moe
- https://github.com/google-research/t5x/blob/main/docs/models.md
- https://github.com/facebookresearch/fairseq
- https://github.com/google-research/byt5
- https://github.com/TsinghuaAI/CPM
- https://github.com/tensorflow/mesh
- https://github.com/bigscience-workshop/t-zero
- https://github.com/facebookresearch/fairseq/tree/main/examples/moe
- https://github.com/facebookresearch/fairseq/tree/main/examples/xglm
- https://github.com/tensorflow/mesh/blob/master/mesh
- https://github.com/EleutherAI/gpt-neox
- https://github.com/yizhongw/Tk-Instruct
- https://huggingface.co/models?search=tk-instruct-
- https://github.com/ai-forever/mgpt
- https://huggingface.co/sberbank-ai/mGPT
- https://github.com/facebookresearch/metaseq
- https://huggingface.co/facebook/
- https://github.com/google-research/google-research/tree/master/ul2
- https://github.com/amazon-science/alexa-teacher-models
- https://github.com/THUDM/GLM-130B
- https://docs.google.com/forms/d/e/1FAIpQLSehr5Dh_i3TwACmFFi8QEgIVNYGmSPwV0GueIcsUev0NEfUug/viewform
- https://github.com/bigscience-workshop/Megatron-DeepSpeed
- https://huggingface.co/bigscience/bloom
- https://github.com/paperswithcode/galai
- https://huggingface.co/facebook/galactica-120b
- https://github.com/facebookresearch/atlas
- https://huggingface.co/bigscience/bloomz
- https://github.com/google-research/t5x/blob/main/docs/usage/finetune.md
- https://huggingface.co/bigscience/mt0-xxl
- https://docs.google.com/forms/d/19jE4WVSMcUy1YcVFGZcU2Q4KvDWGgwFy1tYqGZ02x1k/
- https://github.com/facebookresearch/llama
- https://docs.google.com/forms/d/e/1FAIpQLSfqNECQnMkycAp2jP4Z9TFX0cGR4uf7b_fBxjY_OjhJILlKGA/viewform
- https://huggingface.co/cerebras
- https://github.com/EleutherAI/pythia
- https://github.com/nlpxucan/WizardLM
- https://huggingface.co/WizardLM/WizardLM-30B-V1.0
- https://huggingface.co/timdettmers/guanaco-65b-merged
- https://huggingface.co/meta-llama
- https://huggingface.co/datasets/bookcorpus
- https://huggingface.co/datasets/oscar
- https://huggingface.co/datasets/cc100
- https://pile.eleuther.ai/
- https://huggingface.co/datasets/c4
- https://huggingface.co/datasets/mc4/
- https://huggingface.co/bigscience-data
- https://huggingface.co/datasets/bigcode/the-stack
- https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T
- https://huggingface.co/datasets/tiiuae/falcon-refinedweb
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.unicode.org/versions/Unicode15.0.0/
- https://github.com/nvidia/apex
- https://github.com/NVIDIA/FasterTransformer
- https://github.com/bigscience-workshop/petals
- https://ctan.org/pkg/pifont
- https://tex.stackexchange.com/a/488962