Nouveaux modèles de langue hébraïque lancés
Deux modèles de langue avancés pour l'hébreu moderne et rabbinique sont maintenant disponibles.
― 6 min lire
Table des matières
Récemment, un nouveau modèle de langage pour l'hébreu moderne a été développé. Ce modèle, qui a 7 milliards de paramètres, est principalement entraîné sur des données axées sur la langue hébraïque. Le but est de soutenir la recherche et d'améliorer les outils pour les locuteurs hébreux. En parallèle de ce modèle, un autre spécifiquement pour l'hébreu rabbinique/historique a aussi été introduit. Ces modèles sont conçus pour aider avec diverses tâches comme le suivi d'Instructions, la réponse à des questions et l'analyse de sentiments.
Pourquoi ce modèle est important
Les modèles de langage ont changé notre façon d'utiliser la technologie pour des tâches comme la compréhension de texte et la traduction de langues. La plupart des modèles avancés disponibles aujourd'hui se concentrent sur les langues que beaucoup parlent, laissant d'autres, comme l'hébreu, moins représentées. Ce nouveau modèle de langage vise à combler cette lacune pour l'hébreu moderne, tout en fournissant une ressource pour ceux qui s'intéressent à l'hébreu rabbinique.
Construction du modèle
Pour créer ce modèle, une grande quantité de données a été rassemblée-environ 7,5 milliards de tokens provenant de différentes sources. Ces données viennent de contenus originaux, sans ajouter d'infos artificielles ou inventées. La première partie implique de collecter et de nettoyer les données, tandis que la deuxième partie se concentre sur le réglage fin avec des ensembles de données spécifiques axés sur les questions et réponses en hébreu.
Sources de données pour le pré-entraînement
Les principales données d'entraînement se composent de plusieurs parties :
C4 Dataset (80%) : C'est une version nettoyée d'un précédent corpus hébreu, dont environ 15 % du contenu a été retiré pour améliorer la qualité. Le processus de nettoyage a impliqué l'élimination de phrases mal construites et la conservation uniquement des mots en hébreu et en anglais, tandis que les autres langues étaient marquées comme étrangères.
Autres sources (20%) : Divers autres matériels comme des articles de presse, des blogs, des sous-titres de films et des livres ont aussi été inclus. Ces données ont passé le même processus de nettoyage pour assurer la qualité, ajoutant jusqu'à 1,5 milliard de tokens supplémentaires.
Données d'instruction
Pour apprendre au modèle à suivre différents types d'instructions, deux ensembles de données principaux ont été utilisés :
Ensembles de données QA : Cela implique de mettre en place des invites basées sur des instructions où le modèle est demandé de lire un paragraphe et de répondre à une question à ce sujet. Les instructions varient pour aider le modèle à apprendre à donner différents types de réponses.
Instruct MPT traduit : Pour cet ensemble de données, un autre ensemble de données d'instruction a été traduit en hébreu et ajusté pour aider le modèle à répondre aux questions sans structure rigide.
Structure du modèle
Un des défis rencontrés était la tokenization, qui est la façon dont le texte est décomposé en parties gérables. Étant donné que l'hébreu n'est pas aussi courant dans les modèles multilingues existants, une attention particulière a été portée pour s'assurer que les mots hébreux étaient bien représentés. Le tokenizer utilisé permet un bon équilibre entre les mots hébreux et anglais.
L'architecture du modèle est basée sur un cadre de transformateur, qui est bien connu pour son efficacité dans le traitement du langage. Plusieurs améliorations ont été apportées pour améliorer l'entraînement et la performance du modèle.
Caractéristiques clés
Technique de normalisation : Pour rendre l'entraînement plus fluide, l'entrée est normalisée à différents stades.
Fonction d'activation : Une fonction spécifique appelée GeLU est utilisée, connue pour son efficacité dans ce genre de modèles.
Poids séparés : En séparant les poids d'Embedding et de sortie, le modèle peut mieux performer.
Processus d'entraînement
L'entraînement a été réalisé en utilisant des outils avancés spécialisés pour des calculs haute performance. Le modèle a été pré-entraîné sur huit GPU puissants, pendant environ 150 heures, puis affiné pour la compréhension des instructions pendant encore huit heures. Le processus d'entraînement a utilisé des réglages efficaces pour maximiser la performance.
Modèle supplémentaire pour l'hébreu rabbinique
En plus du modèle principal pour l'hébreu moderne, un autre modèle pour l'hébreu rabbinique a été développé. Ce modèle contient un grand ensemble de textes hébreux rabbiniques et a été créé en utilisant la même approche que le modèle hébreu moderne. Le corpus d'entraînement inclut un mélange d'hébreu moderne et rabbinique, garantissant une compréhension bien arrondie des deux formes.
Considérations éthiques
Il est important de noter que le modèle a été entraîné en utilisant une large gamme de données, ce qui signifie qu'il pourrait produire du contenu qui pourrait être perçu comme offensant ou biaisé pour certains utilisateurs. Cela souligne la nécessité d'une utilisation prudente du modèle et d'ajustements continus.
État actuel
Le projet est encore à ses débuts, et bien que les modèles soient publiés pour un usage public, ils ne répondent peut-être pas encore aux normes les plus élevées de l'industrie. Cependant, ils servent de point de départ pour les chercheurs qui veulent améliorer les outils linguistiques en hébreu.
Conclusion
En résumé, cette nouvelle publication inclut des modèles fondamentaux pour l'hébreu moderne et rabbinique, ainsi qu'une version ajustée pour les instructions. Ces modèles visent à soutenir et encourager la croissance de la technologie linguistique hébraïque, fournissant des ressources précieuses pour les chercheurs et les développeurs. Les modèles peuvent être utilisés comme points de départ pour diverses tâches spécifiques et adaptations dans le domaine du traitement du langage naturel en hébreu.
Titre: Introducing DictaLM -- A Large Generative Language Model for Modern Hebrew
Résumé: We present DictaLM, a large-scale language model tailored for Modern Hebrew. Boasting 7B parameters, this model is predominantly trained on Hebrew-centric data. As a commitment to promoting research and development in the Hebrew language, we release both the foundation model and the instruct-tuned model under a Creative Commons license. Concurrently, we introduce DictaLM-Rab, another foundation model geared towards Rabbinic/Historical Hebrew. These foundation models serve as ideal starting points for fine-tuning various Hebrew-specific tasks, such as instruction, Q&A, sentiment analysis, and more. This release represents a preliminary step, offering an initial Hebrew LLM model for the Hebrew NLP community to experiment with.
Auteurs: Shaltiel Shmidman, Avi Shmidman, Amir David Nissan Cohen, Moshe Koppel
Dernière mise à jour: 2023-09-25 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.14568
Source PDF: https://arxiv.org/pdf/2309.14568
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://creativecommons.org/licenses/by-sa/4.0/
- https://huggingface.co/datasets/mosaicml/dolly_hhrlhf
- https://platform.openai.com/tokenizer
- https://github.com/NVIDIA/apex
- https://github.com/NVIDIA/NeMo
- https://github.com/NVIDIA/TransformerEngine
- https://www.sefaria.org.il/
- https://library.dicta.org.il/
- https://huggingface.co/dicta-il/dictalm-7b
- https://huggingface.co/dicta-il/dictalm-7b-instruct
- https://huggingface.co/dicta-il/dictalm-rab-7b