Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Intelligence artificielle# Apprentissage automatique

Présentation de BioMistral : Un Nouveau Modèle Linguistique Médical

BioMistral vise à faire avancer le traitement des langues dans le secteur de la santé avec une technologie open source.

― 9 min lire


BioMistral 7B : L'IABioMistral 7B : L'IAmédicale déchaînéedomaine de la santé.le traitement du langage dans leUn nouveau modèle open-source améliore
Table des matières

Modèles de langage, qui sont des programmes informatiques capables de comprendre et de produire du langage humain, deviennent super importants dans des domaines comme la santé. Récemment, plusieurs modèles open-source ont été développés, ce qui veut dire que tout le monde peut les utiliser gratuitement. Ces modèles peuvent aider dans divers domaines, y compris la médecine. Mais, prendre un modèle de langage général et le faire marcher correctement dans des contextes médicaux, c'est pas simple.

Dans cet article, on vous présente BioMistral, un modèle de langage open-source spécifiquement créé pour le domaine médical. BioMistral est basé sur Mistral, un autre modèle de langage, et a été spécialement entraîné avec une grande collection d'articles médicaux de PubMed Central. On a testé BioMistral sur un ensemble de dix tâches standard de questions-réponses médicales en anglais. On a aussi regardé des modèles plus petits qui pourraient tourner sur des appareils plus simples. Nos résultats montrent que BioMistral se débrouille mieux que d'autres modèles médicaux gratuits et est compétitif avec des modèles payants. De plus, on a traduit les tâches d'évaluation en sept autres langues pour voir comment BioMistral pouvait performer dans différentes langues.

Le rôle des modèles de langage dans la santé

Les modèles de langage changent la façon dont on communique avec les ordinateurs. Ils peuvent comprendre et répondre à des demandes complexes, ce qui les rend utiles dans diverses tâches. Avec l'essor de modèles comme ChatGPT et Vicuna, l'interaction entre les humains et les machines est devenue plus naturelle.

Le développement de modèles open-source comme BLOOM et LLaMA montre que ces outils peuvent être utiles dans des domaines spécialisés comme la santé. Cependant, utiliser ces modèles dans des milieux médicaux présente son propre lot de défis. Bien que certains modèles aient commencé à être utilisés dans la santé, il y a des inquiétudes sur la confidentialité des données avec des modèles propriétaires comme MedPaLM-2 et GPT-4.

L'intérêt pour des modèles de langage spécialisés dans la santé a suscité de nouvelles initiatives, mais l'adoption de modèles médicaux gratuits a été limitée. Une des principales raisons est le manque de modèles plus petits qui peuvent être utilisés commercialement tout en performants bien. Ça crée un besoin pour des modèles basés sur des frameworks open-source mais optimisés pour des appareils normaux sans perdre en performance.

Présentation de BioMistral 7B

BioMistral 7B est conçu spécifiquement pour le domaine médical. Il est basé sur le modèle Mistral 7B Instruct et a été encore entraîné avec les ressources de PubMed Central. Voici quelques contributions clés de notre travail :

  1. Construction de BioMistral 7B : On a créé le premier modèle open-source basé sur Mistral conçu pour le domaine médical. On a examiné différentes méthodes d'évaluation, y compris l'utilisation de quelques exemples pour l'entraînement et le fine-tuning supervisé.

  2. Nouveau benchmark de questions-réponses médicales : On a introduit un ensemble de tâches de questions-réponses médicales en anglais, qui ont été traduites en d'autres langues. Ça facilite la compréhension de la performance du modèle et son utilisation dans différents contextes linguistiques.

  3. Analyse approfondie : On a réalisé une analyse approfondie de la véracité et de la fiabilité du modèle lorsqu'il est utilisé dans différentes langues.

  4. Modèles légers : On a évalué des modèles plus petits issus de différentes méthodes de quantification et de fusion de modèles existants.

  5. Nouvelles techniques de fusion : On a regardé de nouvelles façons de combiner différents modèles pour améliorer leur performance.

Toutes les données, les benchmarks multilingues et les modèles sont disponibles publiquement pour que tout le monde puisse les utiliser.

Pré-entraînement avec des données médicales

Pour adapter les modèles de langage à la médecine, on a choisi le sous-ensemble d'accès ouvert PMC, qui contient une large gamme d'articles de recherche médicale disponibles gratuitement. Ce choix a été inspiré par des projets précédents montrant comment l'utilisation d'une grande collection de recherches médicales peut améliorer la performance d'un modèle dans des tâches médicales.

Durant la phase de préparation, on s'est concentré sur l'efficacité du dataset pour l'entraînement tout en tenant compte des limites matérielles. Notre objectif était de réentraîner Mistral en utilisant une partie de ce dataset, en visant un nombre spécifique de passages sur les données dans le temps de calcul disponible. On a sélectionné environ 3 milliards de tokens, soit des morceaux de texte, de ce dataset prétraité, qui totalisait environ 1,47 million d'articles.

La majorité de ce dataset est en anglais, mais on a aussi inclus des articles dans d'autres langues comme le néerlandais, l'allemand et le français. En se concentrant sur cette approche multilingue, on visait à créer un dataset d'entraînement couvrant un ensemble diversifié de connaissances médicales.

Comment on entraîne le modèle

On a utilisé le modèle Mistral 7B Instruct comme base pour notre entraînement. Ce modèle est conçu pour gérer des tâches nécessitant des instructions et peut être fine-tuné pour diverses applications. Notre entraînement impliquait de définir des paramètres spécifiques comme la méthode d'optimisation utilisée, le taux d'apprentissage et la taille des batches.

Pour aider à l'efficacité, on a utilisé une méthode qui regroupe les tokens d'une manière qui réduit le nombre de séquences que le modèle doit traiter, ce qui accélère le temps d'entraînement.

Évaluation du modèle

Pour évaluer BioMistral 7B, on a sélectionné dix tâches de questions-réponses liées aux connaissances médicales. Ces tâches couvrent différentes spécialités médicales et présentent des scénarios réels auxquels les professionnels du domaine sont confrontés.

On a aussi réalisé une évaluation multilingue en traduisant nos tâches en plusieurs langues. Cela nous permet de voir comment BioMistral se débrouille en dehors des contextes anglophones. On a effectué plusieurs tests pour vérifier l'exactitude des réponses du modèle pour chaque tâche.

Résultats et découvertes

Notre évaluation a montré que BioMistral 7B surpasse le modèle original Mistral 7B Instruct sur la plupart des tâches. Dans le test des quelques exemples, BioMistral 7B a fait mieux que d'autres modèles médicaux gratuits dans presque tous les domaines. Par exemple, il a amélioré les performances dans des datasets liés aux connaissances cliniques, à la génétique et aux examens médicaux.

Cependant, il y a eu quelques instances où il ne s'est pas aussi bien débrouillé, en particulier sur PubMedQA, où il a eu du mal à cause de déséquilibres dans les informations fournies.

Quand on a regardé les Modèles quantifiés, on a remarqué que différentes méthodes de réduction de la taille du modèle avaient des impacts différents sur la performance. Certaines ont réduit l'exactitude, tandis que d'autres ont aidé à la maintenir ou même à l'améliorer.

Performance multilingue

On a aussi vérifié comment BioMistral 7B fonctionne dans d'autres langues en plus de l'anglais. Bien qu'il y ait eu une baisse de performance dans l'ensemble, ça vient probablement de la qualité de la traduction. Néanmoins, il a toujours performé de manière compétitive par rapport à d'autres modèles.

En regardant des langues spécifiques, on a trouvé que BioMistral avait de meilleurs résultats dans certaines langues que dans d'autres, ce qui indique qu'il y a de la place pour des améliorations sur son adaptation à différents contextes linguistiques.

Calibration et véracité

C'est important pour un modèle de langage de représenter de manière fiable l'information et son niveau de certitude sur ses réponses. On a évalué à quel point BioMistral aligne ses prédictions avec des résultats du monde réel. Notre analyse a montré que BioMistral est généralement bon pour fournir des résultats vrais, particulièrement sur des sujets liés à la santé.

Cependant, on a aussi trouvé des domaines où le modèle pourrait être amélioré. Par exemple, quand on a donné des prompts indiquant que la véracité était testée, la performance s'est améliorée, mais quand on l'a utilisé dans des contextes plus relaxés, la performance a chuté.

Conclusion et travaux futurs

On a développé BioMistral 7B comme un modèle de langage spécialisé pour des tâches médicales. En réentraînant un modèle existant avec des données médicales de haute qualité, on a démontré qu'il peut atteindre des performances de pointe sur divers benchmarks, y compris ceux dans différentes langues.

À l'avenir, on prévoit d'évaluer la qualité du contenu que BioMistral génère grâce à des évaluations humaines directes. De plus, on va travailler à améliorer ses capacités multilingues et sa fiabilité et précision.

Ce projet a nécessité des ressources informatiques importantes et un soutien financier, donc on reconnaît que des entreprises similaires à l'avenir pourraient nécessiter une planification soigneuse et une considération des ressources disponibles. On note aussi que BioMistral 7B est mieux utilisé comme un outil de recherche et non pour des applications médicales directes sans une évaluation supplémentaire dans des contextes cliniques.

En continuant à travailler pour s'assurer que BioMistral est un outil fiable et efficace pour des applications médicales, on espère relever les nombreux défis qui viennent avec l'utilisation de modèles de langage dans la santé.

Le besoin d'une évaluation plus approfondie des modèles de langage dans différents domaines persiste, surtout en ce qui concerne leur capacité à gérer des contenus sensibles de manière responsable. À l'avenir, on vise à mener des investigations plus poussées sur des aspects comme l'éthique, les biais et le potentiel de génération de contenus nuisibles.

En se concentrant sur ces domaines, on aspire à créer des modèles de langage qui excellent non seulement dans la compréhension et la génération de langage humain, mais qui s'alignent aussi sur des normes éthiques tout en servant divers domaines, surtout la santé.

Source originale

Titre: BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains

Résumé: Large Language Models (LLMs) have demonstrated remarkable versatility in recent years, offering potential applications across specialized domains such as healthcare and medicine. Despite the availability of various open-source LLMs tailored for health contexts, adapting general-purpose LLMs to the medical domain presents significant challenges. In this paper, we introduce BioMistral, an open-source LLM tailored for the biomedical domain, utilizing Mistral as its foundation model and further pre-trained on PubMed Central. We conduct a comprehensive evaluation of BioMistral on a benchmark comprising 10 established medical question-answering (QA) tasks in English. We also explore lightweight models obtained through quantization and model merging approaches. Our results demonstrate BioMistral's superior performance compared to existing open-source medical models and its competitive edge against proprietary counterparts. Finally, to address the limited availability of data beyond English and to assess the multilingual generalization of medical LLMs, we automatically translated and evaluated this benchmark into 7 other languages. This marks the first large-scale multilingual evaluation of LLMs in the medical domain. Datasets, multilingual evaluation benchmarks, scripts, and all the models obtained during our experiments are freely released.

Auteurs: Yanis Labrak, Adrien Bazoge, Emmanuel Morin, Pierre-Antoine Gourraud, Mickael Rouvier, Richard Dufour

Dernière mise à jour: 2024-07-17 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2402.10373

Source PDF: https://arxiv.org/pdf/2402.10373

Licence: https://creativecommons.org/publicdomain/zero/1.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires