Projet Phoenix : Combler les lacunes linguistiques avec l'IA
Une initiative pour rendre les modèles de langage IA accessibles en plusieurs langues.
― 9 min lire
Table des matières
- Le Problème de la Suprématie de l'IA
- Objectifs du Projet Phoenix
- Méthodologie
- Collecte de Données Multilingues
- Nommer le Modèle 'Phoenix'
- Évaluation du Modèle
- Performance de Phoenix
- Importance de Phoenix
- Tendances Existantes dans la Démocratisation de ChatGPT
- Modèles d'Ajustement Basés sur les Instructions et les Conversations
- Défis des Capacités Multilingues
- Construction et Diversité des Données
- Entraînement et Évaluation de la Performance
- Dernières Considérations
- Source originale
- Liens de référence
Ce papier parle d'un projet appelé Phoenix, qui a pour but de rendre un modèle de langage comme ChatGPT accessible aux gens qui parlent différentes langues. L'accent est mis sur le soutien non seulement aux langues populaires comme l'anglais et le chinois, mais aussi à celles qui ont moins de ressources. L'objectif est de donner à plus de gens accès à des outils d'IA avancés, surtout dans les endroits où l'accès est limité à cause de règles ou d'autres contraintes.
Le Problème de la Suprématie de l'IA
Actuellement, de grands modèles de langage, y compris ChatGPT et sa version avancée, GPT-4, sont développés par une seule entreprise. Ça mène à une situation connue sous le nom de "suprématie de l'IA", où une entité a un pouvoir et une influence significatifs sur les technologies de l'IA. C'est préoccupant pour beaucoup, car ça pourrait entraîner qu'une seule entreprise ait trop de contrôle sur l'avenir de l'IA et ses implications pour la société.
La communauté de l'IA pense qu'il faut changer cette situation pour s'assurer que les avancées en intelligence artificielle soient plus ouvertes et partagées entre différents chercheurs et développeurs. Ça peut éviter qu'une organisation domine le domaine et réduire les risques potentiels associés à un contrôle centralisé des systèmes d'IA.
Objectifs du Projet Phoenix
Le principal objectif du projet Phoenix est de réduire les barrières pour former et accéder à des modèles de langage comme ChatGPT. Ça permettra à plus de chercheurs et développeurs de participer à la recherche en IA et d'apporter des idées et solutions diverses. Le projet vise à créer une IA multilingue qui peut être utile pour des personnes de différentes origines et cultures.
Les modèles actuels dans la communauté open-source négligent souvent les langues autres que les scripts latins et cyrilliques. Cette exclusion va à l'encontre de l'esprit open-source, car ça prive certains groupes de l'accès à la technologie. Donc, Phoenix vise à combler ce vide et s'assurer que le soutien linguistique soit disponible pour tous.
Méthodologie
Pour développer Phoenix, deux stratégies principales sont employées :
Ajustement basé sur les instructions : Cette méthode consiste à apprendre au modèle à suivre les instructions humaines. Ça pourrait impliquer de créer des instructions initiales par des gens et ensuite utiliser le modèle ChatGPT pour en générer des similaires.
Ajustement basé sur la conversation : Cette approche utilise de vraies conversations qui ont eu lieu avec ChatGPT pour aider à former le modèle. Contrairement aux données d'instruction, qui se concentrent généralement sur des questions uniques, les données de conversation aident le modèle à apprendre comment s'engager dans un dialogue interactif.
Phoenix combine ces deux types de données pour l'entraînement, croyant que chaque type améliore la capacité du modèle à bien fonctionner dans plusieurs langues. Le processus d'entraînement commence avec un modèle pré-entraîné qui a déjà une compréhension de base de diverses langues.
Collecte de Données Multilingues
Un défi majeur dans la création d'un modèle multilingue est de rassembler suffisamment de données dans différentes langues. Le projet collecte des instructions et des données de conversation et les traduit en plusieurs langues.
Les données d'instruction peuvent venir de plusieurs sources et être traduites selon les habitudes d'utilisation de chaque langue. Ça inclut de s'assurer que les réponses fournies aient l'air naturelles dans la langue cible, en tenant compte des aspects culturels.
Pour les données de conversation, des conversations partagées par des utilisateurs sont collectées à partir de diverses plateformes en ligne. Ça aide à former le modèle à répondre de manière conversationnelle. L'importance d'utiliser un ensemble diversifié de données est soulignée pour s'assurer que le modèle puisse s'adapter efficacement à différentes langues.
Nommer le Modèle 'Phoenix'
Choisir un nom pour le modèle a été un autre obstacle, car beaucoup de noms d'animaux associés aux modèles de langage sont déjà pris. Le nom Phoenix a été choisi car il symbolise un oiseau puissant et adaptable dans la culture chinoise. L'idée est que Phoenix représente la capacité de comprendre et de communiquer dans plusieurs langues tout en comblant des écarts culturels.
Pour une version de Phoenix axée sur les langues latines, le nom Chimera a été sélectionné. Chimera est une créature légendaire de la mythologie grecque composée de différentes parties animales. Cela symbolise la combinaison de différentes cultures en un seul modèle de langage.
Évaluation du Modèle
Pour évaluer comment Phoenix se comporte par rapport aux modèles existants, on utilise des méthodes d'évaluation automatiques et manuelles. Des questions sont créées dans plusieurs catégories pour tester les réponses générées par chaque modèle. Une IA avancée est utilisée pour noter ces réponses en fonction de leur utilité, précision, pertinence et niveau de détail.
L'évaluation humaine joue aussi un rôle pour comprendre la performance du modèle. Des volontaires sont invités à comparer les réponses de Phoenix et d'autres modèles pour déterminer lequel performe mieux selon divers critères.
Performance de Phoenix
En chinois, Phoenix a montré des performances remarquables par rapport à d'autres modèles de langage open-source. Il a surpassé de nombreux modèles développés pour le chinois, démontrant qu'il peut rivaliser même avec des modèles propriétaires.
Pour les langues non-latines comme l'arabe, le japonais et le coréen, Phoenix performe significativement mieux que les modèles de langue existants. Il est essentiel de noter que, bien qu'un modèle multilingue ne surpasse pas toujours les modèles conçus pour une langue spécifique, il apporte une compréhension et une adaptabilité plus larges à travers différentes langues.
Chimera, le modèle pour les langues latines, a aussi montré des résultats impressionnants, atteignant un score élevé en qualité. Cela indique que Phoenix et son homologue latin ont tous deux un potentiel de performance robuste dans plusieurs contextes.
Importance de Phoenix
Ce projet vise à démocratiser l'accès aux modèles de langage IA en les rendant open-source et multilingues. Phoenix est l'un des premiers modèles à utiliser de manière exhaustive des données multilingues riches dans ses étapes d'entraînement, garantissant qu'il peut efficacement s'adapter à des langues variées.
La combinaison des approches basées sur les instructions et la conversation établit Phoenix comme un solide concurrent parmi les modèles existants. Il est vu comme un outil avancé pour les utilisateurs qui peuvent avoir un accès limité à la technologie à cause de barrières géographiques, économiques ou politiques.
Tendances Existantes dans la Démocratisation de ChatGPT
Depuis le lancement de ChatGPT, divers modèles ont émergé, visant à offrir des capacités similaires. Ces modèles s'appuient souvent sur des modèles de langage établis comme LLaMA et BLOOM, en cherchant des moyens de les rendre plus accessibles et abordables pour les chercheurs.
Beaucoup d'efforts récents se concentrent sur des méthodes post-formation, où des modèles pré-entraînés sont ajustés en utilisant différentes données d'entraînement. Cela rend le processus plus réalisable pour des équipes de recherche qui peuvent manquer de ressources pour une formation extensive depuis zéro.
Modèles d'Ajustement Basés sur les Instructions et les Conversations
Plusieurs modèles notables ont émergé de l'ajustement basé sur les instructions, comme Alpaca. Ce modèle utilise des instructions auto-générées pour un entraînement efficace. De même, les modèles basés sur la conversation ont gagné en popularité, tirant parti des interactions des utilisateurs avec ChatGPT pour améliorer la performance.
Ces modèles se concentrent souvent sur une langue, principalement l'anglais, ce qui limite leur utilisation dans des contextes multilingues. Bien que certains aient commencé à incorporer des langues non-latines dans leur cadre, un soutien complet à travers des langues diverses reste un défi.
Défis des Capacités Multilingues
La plupart des modèles de langage sont adaptés aux langues utilisant des caractères latins, ignorant souvent les langues non-latines. Cela crée des barrières d'accès pour de nombreux utilisateurs à travers le monde. Le problème vient d'un manque de données d'entraînement suffisantes pour ces langues, menant à des modèles qui ne peuvent pas fonctionner efficacement en dehors de leurs domaines linguistiques conçus.
Certaines tentatives ont été faites pour atténuer cela en ajoutant une petite quantité de données non-latines pendant l'entraînement. Cependant, sans une base solide de données multilingues, ces modèles sont souvent inefficaces pour les locuteurs de langues manquant de ressources.
Construction et Diversité des Données
Pour créer un ensemble de données riche et diversifié, Phoenix a collecté des données de deux sources principales : instructions et conversations d'utilisateurs. Cela garantit que les deux ensembles de données reflètent une large gamme de langues et de contextes culturels.
Les instructions collectées proviennent d'une combinaison de jeux de données existants et de contenu fraîchement généré, qui peut ensuite être traduit dans d'autres langues, augmentant la portée de l'ensemble de données. Pendant ce temps, les conversations d'utilisateurs fournissent une ressource inestimable pour affiner les capacités conversationnelles du modèle.
Entraînement et Évaluation de la Performance
Le processus d'entraînement pour Phoenix implique des lignes directrices et des protocoles spécifiques pour s'assurer qu'il peut apprendre efficacement des données rassemblées. Les modèles sont mis en œuvre en utilisant des outils de programmation largement disponibles, et une attention particulière est portée à la façon dont les données d'entraînement sont structurées.
L'évaluation de la performance implique à la fois des évaluations automatisées et des revues humaines pour déterminer à quel point le modèle peut répondre aux questions et s'engager dans des conversations.
Dernières Considérations
Le projet Phoenix représente un pas significatif vers la mise à disposition d'outils IA avancés à un public plus large. En se concentrant sur les capacités multilingues et le développement open-source, il vise à créer un environnement plus inclusif pour la technologie IA.
Rendre les modèles IA disponibles aux locuteurs de toutes les langues est essentiel pour s'assurer que tout le monde ait l'opportunité de bénéficier des avancées en intelligence artificielle. Le projet invite des chercheurs et des développeurs du monde entier à contribuer, favorisant la collaboration et l'innovation dans le domaine.
Titre: Phoenix: Democratizing ChatGPT across Languages
Résumé: This paper presents our efforts to democratize ChatGPT across language. We release a large language model "Phoenix", achieving competitive performance among open-source English and Chinese models while excelling in languages with limited resources (covering both Latin and non-Latin languages). We believe this work will be beneficial to make ChatGPT more accessible, especially in countries where people cannot use ChatGPT due to restrictions from OpenAI or local goverments. Our data, code, and models are available at https://github.com/FreedomIntelligence/LLMZoo.
Auteurs: Zhihong Chen, Feng Jiang, Junying Chen, Tiannan Wang, Fei Yu, Guiming Chen, Hongbo Zhang, Juhao Liang, Chen Zhang, Zhiyi Zhang, Jianquan Li, Xiang Wan, Benyou Wang, Haizhou Li
Dernière mise à jour: 2023-04-20 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2304.10453
Source PDF: https://arxiv.org/pdf/2304.10453
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://futureoflife.org/open-letter/pause-giant-ai-experiments/
- https://yiyan.baidu.com/
- https://tongyi.aliyun.com/
- https://github.com/THUDM/ChatGLM-6B
- https://huggingface.co/databricks/dolly-v1-6b
- https://guanaco-model.github.io/
- https://bair.berkeley.edu/blog/2023/04/03/koala/
- https://github.com/FreedomIntelligence/LLMZoo
- https://en.wikipedia.org/wiki/List_of_languages_by_total_number_of_speakers
- https://sharegpt.com/
- https://huggingface.co/datasets/philschmid/sharegpt-raw
- https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes
- https://github.com/huggingface/transformers
- https://i.imgur.com/2fF3Xlh.png
- https://10.26.1.135:7860/