Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Nouveaux modèles de langue hébraïque lancés

Deux modèles de langue avancés pour l'hébreu moderne et rabbinique sont maintenant disponibles.

― 6 min lire


Modèles de langue hébreuxModèles de langue hébreuxsortisles outils de recherche.traitement de la langue hébraïque etDe nouveaux modèles améliorent le
Table des matières

Récemment, un nouveau modèle de langage pour l'hébreu moderne a été développé. Ce modèle, qui a 7 milliards de paramètres, est principalement entraîné sur des données axées sur la langue hébraïque. Le but est de soutenir la recherche et d'améliorer les outils pour les locuteurs hébreux. En parallèle de ce modèle, un autre spécifiquement pour l'hébreu rabbinique/historique a aussi été introduit. Ces modèles sont conçus pour aider avec diverses tâches comme le suivi d'Instructions, la réponse à des questions et l'analyse de sentiments.

Pourquoi ce modèle est important

Les modèles de langage ont changé notre façon d'utiliser la technologie pour des tâches comme la compréhension de texte et la traduction de langues. La plupart des modèles avancés disponibles aujourd'hui se concentrent sur les langues que beaucoup parlent, laissant d'autres, comme l'hébreu, moins représentées. Ce nouveau modèle de langage vise à combler cette lacune pour l'hébreu moderne, tout en fournissant une ressource pour ceux qui s'intéressent à l'hébreu rabbinique.

Construction du modèle

Pour créer ce modèle, une grande quantité de données a été rassemblée-environ 7,5 milliards de tokens provenant de différentes sources. Ces données viennent de contenus originaux, sans ajouter d'infos artificielles ou inventées. La première partie implique de collecter et de nettoyer les données, tandis que la deuxième partie se concentre sur le réglage fin avec des ensembles de données spécifiques axés sur les questions et réponses en hébreu.

Sources de données pour le pré-entraînement

Les principales données d'entraînement se composent de plusieurs parties :

  • C4 Dataset (80%) : C'est une version nettoyée d'un précédent corpus hébreu, dont environ 15 % du contenu a été retiré pour améliorer la qualité. Le processus de nettoyage a impliqué l'élimination de phrases mal construites et la conservation uniquement des mots en hébreu et en anglais, tandis que les autres langues étaient marquées comme étrangères.

  • Autres sources (20%) : Divers autres matériels comme des articles de presse, des blogs, des sous-titres de films et des livres ont aussi été inclus. Ces données ont passé le même processus de nettoyage pour assurer la qualité, ajoutant jusqu'à 1,5 milliard de tokens supplémentaires.

Données d'instruction

Pour apprendre au modèle à suivre différents types d'instructions, deux ensembles de données principaux ont été utilisés :

  • Ensembles de données QA : Cela implique de mettre en place des invites basées sur des instructions où le modèle est demandé de lire un paragraphe et de répondre à une question à ce sujet. Les instructions varient pour aider le modèle à apprendre à donner différents types de réponses.

  • Instruct MPT traduit : Pour cet ensemble de données, un autre ensemble de données d'instruction a été traduit en hébreu et ajusté pour aider le modèle à répondre aux questions sans structure rigide.

Structure du modèle

Un des défis rencontrés était la tokenization, qui est la façon dont le texte est décomposé en parties gérables. Étant donné que l'hébreu n'est pas aussi courant dans les modèles multilingues existants, une attention particulière a été portée pour s'assurer que les mots hébreux étaient bien représentés. Le tokenizer utilisé permet un bon équilibre entre les mots hébreux et anglais.

L'architecture du modèle est basée sur un cadre de transformateur, qui est bien connu pour son efficacité dans le traitement du langage. Plusieurs améliorations ont été apportées pour améliorer l'entraînement et la performance du modèle.

Caractéristiques clés

  • Technique de normalisation : Pour rendre l'entraînement plus fluide, l'entrée est normalisée à différents stades.

  • Fonction d'activation : Une fonction spécifique appelée GeLU est utilisée, connue pour son efficacité dans ce genre de modèles.

  • Poids séparés : En séparant les poids d'Embedding et de sortie, le modèle peut mieux performer.

Processus d'entraînement

L'entraînement a été réalisé en utilisant des outils avancés spécialisés pour des calculs haute performance. Le modèle a été pré-entraîné sur huit GPU puissants, pendant environ 150 heures, puis affiné pour la compréhension des instructions pendant encore huit heures. Le processus d'entraînement a utilisé des réglages efficaces pour maximiser la performance.

Modèle supplémentaire pour l'hébreu rabbinique

En plus du modèle principal pour l'hébreu moderne, un autre modèle pour l'hébreu rabbinique a été développé. Ce modèle contient un grand ensemble de textes hébreux rabbiniques et a été créé en utilisant la même approche que le modèle hébreu moderne. Le corpus d'entraînement inclut un mélange d'hébreu moderne et rabbinique, garantissant une compréhension bien arrondie des deux formes.

Considérations éthiques

Il est important de noter que le modèle a été entraîné en utilisant une large gamme de données, ce qui signifie qu'il pourrait produire du contenu qui pourrait être perçu comme offensant ou biaisé pour certains utilisateurs. Cela souligne la nécessité d'une utilisation prudente du modèle et d'ajustements continus.

État actuel

Le projet est encore à ses débuts, et bien que les modèles soient publiés pour un usage public, ils ne répondent peut-être pas encore aux normes les plus élevées de l'industrie. Cependant, ils servent de point de départ pour les chercheurs qui veulent améliorer les outils linguistiques en hébreu.

Conclusion

En résumé, cette nouvelle publication inclut des modèles fondamentaux pour l'hébreu moderne et rabbinique, ainsi qu'une version ajustée pour les instructions. Ces modèles visent à soutenir et encourager la croissance de la technologie linguistique hébraïque, fournissant des ressources précieuses pour les chercheurs et les développeurs. Les modèles peuvent être utilisés comme points de départ pour diverses tâches spécifiques et adaptations dans le domaine du traitement du langage naturel en hébreu.

Plus d'auteurs

Articles similaires