Meltemi 7B : Un jalon pour l'IA grecque
Meltemi 7B apporte des outils d'IA avancés aux locuteurs grecs.
― 7 min lire
Table des matières
- Contexte
- Le développement de Meltemi 7B
- Ajustement des instructions avec Meltemi 7B Instruct
- Évaluation et résultats
- Défis dans la collecte de données
- Assurer la qualité des données
- Tokenisation et entraînement du modèle
- Ajustement des instructions
- Métriques d'évaluation
- L'avenir de Meltemi
- Conclusion
- Source originale
- Liens de référence
Meltemi 7B est le premier grand modèle de langage ouvert conçu spécialement pour la langue grecque. Avec 7 milliards de Paramètres, il a été entraîné grâce à un grand ensemble de Données textuelles grecques. Ce modèle vise à élargir les opportunités pour les utilisateurs Grecs dans le domaine de l'Intelligence Artificielle, rendant la technologie plus accessible et utile.
Contexte
Les Modèles de langage sont des outils qui aident les ordinateurs à comprendre et à générer du langage humain. Ils sont devenus populaires pour diverses applications, comme les chatbots et les services de traduction. Cependant, la plupart des efforts de développement se sont concentrés sur les grandes langues, laissant des langues moins répandues comme le grec sous-représentées.
La demande croissante en technologies IA dans la vie quotidienne souligne le besoin d'outils capables de gérer efficacement différentes langues. Meltemi 7B répond à ce besoin en utilisant une vaste base de données textuelles grecques pour entraîner ses algorithmes.
Le développement de Meltemi 7B
Pour créer Meltemi 7B, l'équipe a adapté un modèle existant appelé Mistral. Ils ont appliqué une méthode connue sous le nom de pré-Entraînement continu, ce qui signifie qu'ils ont continué à entraîner le modèle initial avec de nouvelles données. Un grand corpus grec varié, composé d'environ 40 milliards de tokens, a été utilisé pour ce processus. Cette approche aide le modèle à mieux apprendre la langue et la culture grecques.
Un des principaux défis était de s'assurer que le modèle ait une base solide en utilisant des données de haute qualité. L'équipe a cherché différentes sources de textes grecs, comme Wikipedia, des articles académiques et des documents gouvernementaux, pour créer un ensemble de données d'entraînement complet.
Ajustement des instructions avec Meltemi 7B Instruct
Pour améliorer encore Meltemi 7B, l'équipe a développé une version orientée chat appelée Meltemi 7B Instruct. Cela a impliqué d'aligner le modèle avec ce que les utilisateurs préfèrent lors des interactions avec l'IA. Ils ont traduit et organisé un ensemble de données liées aux instructions pour aider le modèle à comprendre et à répondre aux demandes des utilisateurs d'une manière qui correspond aux attentes humaines.
En utilisant des techniques d'optimisation des préférences, le modèle a pu mieux performer dans les conversations et fournir des réponses plus pertinentes aux demandes des utilisateurs. L'entraînement a également inclus une variété de scénarios pour préparer le modèle à une utilisation en conditions réelles.
Évaluation et résultats
L'équipe a établi un ensemble de tests d'évaluation pour évaluer Meltemi 7B et Meltemi 7B Instruct. Ces tests étaient conçus pour mesurer la performance du modèle dans des domaines comme la traduction, le dialogue et le raisonnement. Ils ont comparé les résultats avec ceux d'autres modèles pour voir comment Meltemi se débrouillait.
Les résultats ont montré que Meltemi 7B améliorait considérablement les performances dans des tâches en langue grecque. Cependant, il ne performait pas aussi bien dans des tâches en anglais par rapport au modèle Mistral original. Cette différence était attendue en raison de l'accent mis sur l'entraînement initial et des besoins spécifiques de la langue grecque.
Défis dans la collecte de données
Créer un modèle de langage pour le grec s'est accompagné de ses propres défis. Un gros souci était le manque de données de qualité disponibles. Le grec est moins représenté dans les grands ensembles de données comparé à des langues comme l'anglais ou le chinois, ce qui rend difficile la collecte d'assez de matériel de haute qualité pour l'entraînement.
Pour surmonter cette barrière, l'équipe a utilisé diverses sources de données et mis en œuvre des processus pour filtrer et nettoyer le texte qu'ils ont collecté. Cela a garanti que les données d'entraînement étaient pertinentes et utiles pour créer un modèle équilibré.
Assurer la qualité des données
La qualité des données d'entraînement est cruciale pour le succès de tout modèle de langage. L'équipe a pris grand soin de s'assurer que les textes utilisés pour entraîner Meltemi 7B étaient de haute qualité. Ils ont employé des techniques de filtrage pour supprimer le contenu non pertinent ou de basse qualité.
Par exemple, ils ont éliminé les documents contenant trop d'erreurs ou qui étaient trop courts. Ils ont également veillé à ce que les textes reflètent des sujets et des styles divers, ce qui aide le modèle à comprendre différents contextes.
Tokenisation et entraînement du modèle
Pour rendre le modèle plus efficace dans le traitement des textes grecs, l'équipe a élargi le tokenizeur original utilisé dans Mistral. Un tokenizeur est un outil qui divise le texte en petits morceaux, appelés tokens, que le modèle peut ensuite traiter. Le tokenizeur original s'est avéré moins efficace pour le grec, donc ils ont ajouté plus de tokens pour améliorer sa performance.
L'entraînement de Meltemi 7B s'est terminé en deux étapes principales. D'abord, l'équipe a entraîné les nouveaux tokens du modèle, puis elle a progressivement inclus tous les autres paramètres. Cette méthode a assuré que le modèle s'adapte bien à la langue grecque sans perdre ses connaissances de base.
Ajustement des instructions
L'ajustement des instructions est une étape importante pour rendre les modèles plus conviviaux. Pour Meltemi 7B Instruct, des données de préférence ont été utilisées pour aider à peaufiner les réponses du modèle. L'équipe a rassemblé une variété d'ensembles de données de préférence et les a traduits en grec, garantissant que le modèle s'aligne bien avec les préférences humaines.
Ce processus a impliqué la création de scénarios de conversation où les utilisateurs pourraient interagir avec le modèle. En comprenant ce que les utilisateurs trouvent utile et pertinent, le modèle pourrait fournir de meilleures réponses dans des interactions en temps réel.
Métriques d'évaluation
Pour évaluer Meltemi 7B et Instruct, l'équipe a utilisé plusieurs benchmarks. Ceux-ci comprenaient des tests de traduction et des tâches de raisonnement qui avaient été établis précédemment pour d'autres langues. Ils ont également créé un nouveau benchmark axé sur les questions médicales, ce qui a aidé à évaluer la capacité du modèle à gérer des sujets spécifiques.
Les résultats de ces évaluations ont montré que Meltemi 7B et Instruct surpassaient les modèles précédents pour les tâches grecques, montrant l'efficacité des méthodes d'entraînement utilisées. Cependant, il y a eu une baisse noticeable de performance pour les tâches en anglais, soulignant les défis persistants dans l'adaptation des capacités multilingues.
L'avenir de Meltemi
Le développement de Meltemi 7B n'est que le début. L'équipe s'engage à améliorer encore le modèle en explorant des modèles plus grands et des techniques plus efficaces pour l'adaptation. Ils cherchent aussi à rendre le modèle plus durable, en tenant compte de l'impact de la consommation d'énergie dans l'entraînement des systèmes IA.
De plus, il y a des plans pour explorer de nouveaux domaines comme les capacités multimodales, qui intégreraient texte, images, et peut-être d'autres formes de données. Cela élargirait l'utilité de Meltemi, en le rendant un outil plus polyvalent pour diverses applications.
Conclusion
L'introduction de Meltemi 7B marque une étape significative vers la fourniture d'outils IA accessibles pour les locuteurs grecs. Avec son accent sur la qualité des données, le pré-entraînement continu et l'ajustement des instructions, le modèle démontre le potentiel d'améliorer les interactions IA en grec.
En répondant aux besoins spécifiques des utilisateurs grecs, Meltemi 7B fournit une base pour de futurs développements dans la technologie linguistique. Alors que l'équipe continue à affiner et à étendre le modèle, il y aura encore plus d'opportunités pour améliorer la communication et la compréhension en grec grâce à la puissance de l'IA.
Titre: Meltemi: The first open Large Language Model for Greek
Résumé: We describe the development and capabilities of Meltemi 7B, the first open Large Language Model for the Greek language. Meltemi 7B has 7 billion parameters and is trained on a 40 billion token Greek corpus. For the development of Meltemi 7B, we adapt Mistral, by continuous pretraining on the Greek Corpus. Meltemi 7B contains up-to-date information up to September 2023. Furthermore, we have translated and curated a Greek instruction corpus, which has been used for the instruction-tuning of a chat model, named Meltemi 7B Instruct. Special care has been given to the alignment and the removal of toxic content for the Meltemi 7B Instruct. The developed models are evaluated on a broad set of collected evaluation corpora, and examples of prompts and responses are presented. Both Meltemi 7B and Meltemi 7B Instruct are available at https://huggingface.co/ilsp under the Apache 2.0 license.
Auteurs: Leon Voukoutis, Dimitris Roussis, Georgios Paraskevopoulos, Sokratis Sofianopoulos, Prokopis Prokopidis, Vassilis Papavasileiou, Athanasios Katsamanis, Stelios Piperidis, Vassilis Katsouros
Dernière mise à jour: 2024-07-30 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.20743
Source PDF: https://arxiv.org/pdf/2407.20743
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://huggingface.co/ilsp/
- https://www2.deloitte.com/us/en/pages/consulting/articles/the-future-of-ai.html
- https://arxiv.org/pdf/2202.13084.pdf
- https://github.com/togethercomputer/RedPajama-Data
- https://github.com/bitextor/monocleaner
- https://github.com/ChenghaoMou/text-dedup/
- https://huggingface.co/datasets/ilsp/arc_greek
- https://huggingface.co/datasets/ilsp/truthful_qa_greek
- https://huggingface.co/datasets/ilsp/hellaswag_greek
- https://huggingface.co/datasets/ilsp/mmlu_greek
- https://huggingface.co/datasets/facebook/belebele/viewer/default/ell_Grek
- https://huggingface.co/datasets/ilsp/medical_mcqa_greek
- https://www.doatap.gr
- https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard
- https://github.com/LeonVouk/lighteval
- https://doatap.gr
- https://huggingface.co/datasets/ilsp/winogrande_greek
- https://huggingface.co/datasets/ilsp/greek_civics_qa
- https://huggingface.co/datasets/joelniklaus/greek_legal_ner