Avancer le NLP espagnol pour des applications cliniques
Une enquête sur les modèles de langue espagnole dans les tâches cliniques et leurs performances.
― 5 min lire
Table des matières
Cette enquête analyse les modèles de langage conçus pour des tâches cliniques en espagnol. On passe en revue 17 corpus axés sur des applications cliniques et on met en avant des modèles de langue espagnole notables. Plus de 3000 modèles ont été ajustés et comparés pour évaluer leurs performances. Tous les modèles et corpus testés seront accessibles au public, permettant une vérification indépendante des résultats et favorisant les avancées futures.
Le volume important de données dans les dossiers de santé électroniques (DHE) offre de nombreuses opportunités de recherche et améliore la pratique clinique. En convertissant les données non structurées, comme les notes cliniques, en formats structurés, on améliore la qualité des données et permet une interrogation efficace. Ces informations structurées soutiennent diverses applications, y compris de nouvelles solutions de diagnostic, des évaluations des résultats des patients et l'identification de populations à risque.
Le traitement des données DHE présente des défis spécifiques. Les récits cliniques sont souvent écrits à la hâte, contenant diverses erreurs et un jargon unique. Cela rend l'interprétation des données complexe, étant donné les différences d'utilisation de la langue dans des contextes médicaux par rapport à la langue générale.
Langue espagnole en NLP
Avec des millions de locuteurs, l'espagnol est la quatrième langue la plus parlée au monde, mais il manque de ressources suffisantes en traitement du langage naturel (NLP). Par exemple, il y a beaucoup plus de modèles et de corpus en anglais qu'en espagnol. Cette pénurie met en évidence le besoin de plus de ressources pour le NLP espagnol, en particulier dans les domaines cliniques.
L'espagnol est très flexionnel, ce qui entraîne une morphologie et une syntaxe variées, créant des obstacles supplémentaires lors du traitement des textes cliniques. La traduction de l'anglais vers l'espagnol introduit aussi des variations et des anglicismes qui compliquent la terminologie et la compréhension dans le domaine clinique.
But de l'étude
Cette étude vise à compiler les ressources disponibles pour les données textuelles cliniques en espagnol et à établir un classement de performance des modèles. On ajuste de nombreuses combinaisons de modèles pour atteindre cet objectif.
Travaux antérieurs
La dernière décennie a vu des avancées rapides en NLP, passant de modèles basiques comme Word2vec à des architectures complexes avec des milliards de paramètres, comme PaLM. Ces améliorations proviennent du matériel amélioré, permettant un entraînement efficace des réseaux de neurones, essentiels pour le traitement des textes cliniques.
Corpus non annotés
Les corpus sont cruciaux en NLP car ils permettent le pré-entraînement de modèles de langage sans étiquettes. Cependant, les données cliniques comme les DHE ne sont pas accessibles au public en raison de préoccupations liées à la vie privée, contrairement aux données biomédicales provenant de sources comme PubMed.
Corpus cliniques espagnols pertinents
Plusieurs corpus cliniques espagnols sont notables :
- Spanish Clinical Case Corpus (SPACCC) : Une collection de cas cliniques provenant de SciELO, contenant des tokens et accessible au public.
- European Clinical Case Corpus (E3C) : Un ensemble de données multilingue incluant divers cas cliniques en espagnol.
- CANTEMIST : Axé sur la morphologie des tumeurs dans les textes cliniques, ce corpus NER a subi une annotation par des experts.
- CARES : Un corpus de rapports de radiologie qui classe les codes ICD-10 de manière hiérarchique.
- Chilean Waiting List Corpus (CWLC) : Contient des références anonymisées avec des entités annotées.
- CodiEsp : Se concentre sur la classification multi-label dans une large gamme de sujets cliniques.
- CT-EBM-SP : Composé d'abstracts de PubMed et SciELO, ce corpus NER facilite la généralisation des modèles.
Résumé des corpus cliniques espagnols
Malgré la disponibilité de certains word embeddings, les modèles basés sur des transformers se sont révélés plus efficaces. Des modèles comme BETO et MarIA montrent le potentiel d'obtenir des résultats significatifs en NLP espagnol.
- BETO : Le premier modèle espagnol avec une architecture BERT, servant de bonne référence.
- MarIA : Basé sur RoBERTa, ce modèle a montré d'excellents résultats de performance sur diverses tâches.
- RigoBERTa : Un autre modèle prometteur qui s'appuie sur des architectures antérieures.
Évaluation publique
L'étude présente un benchmark public pour les modèles de langue clinique en espagnol, incorporant diverses métriques d'évaluation. Les modèles finaux, utilisés dans notre évaluation, sont accessibles sur des plateformes dédiées à la science ouverte.
Évaluation et résultats
Dans nos résultats, RigoBERTa 2 s'est imposé comme le meilleur performer, livrant constamment de bons résultats sur divers corpus. Les résultats soulignent l'importance de données d'entraînement de qualité pour une performance efficace des modèles.
Conclusion
Il existe un écart considérable pour des modèles de langue clinique de qualité en espagnol. L'enquête souligne le besoin de ressources supplémentaires et de meilleurs modèles dans ce domaine. Les résultats indiquent un besoin urgent d'avancées substantielles dans le NLP espagnol, en particulier dans les applications cliniques. Cette recherche jette les bases pour des améliorations futures et établit un benchmark pour évaluer de nouveaux modèles de langue clinique espagnols.
Titre: A Survey of Spanish Clinical Language Models
Résumé: This survey focuses in encoder Language Models for solving tasks in the clinical domain in the Spanish language. We review the contributions of 17 corpora focused mainly in clinical tasks, then list the most relevant Spanish Language Models and Spanish Clinical Language models. We perform a thorough comparison of these models by benchmarking them over a curated subset of the available corpora, in order to find the best-performing ones; in total more than 3000 models were fine-tuned for this study. All the tested corpora and the best models are made publically available in an accessible way, so that the results can be reproduced by independent teams or challenged in the future when new Spanish Clinical Language models are created.
Auteurs: Guillem García Subies, Álvaro Barbero Jiménez, Paloma Martínez Fernández
Dernière mise à jour: 2023-08-04 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2308.02199
Source PDF: https://arxiv.org/pdf/2308.02199
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://docs.google.com/spreadsheets/d/16QglcHI0HlHRf_YzhUCKMGKxfDK_AbSLLK-dH8RHzKI/edit?usp=sharing
- https://zenodo.org/record/2560316
- https://live.european-language-grid.eu/catalogue/corpus/7618
- https://temu.bsc.es/BARR2/datasets.html
- https://zenodo.org/record/3978041
- https://huggingface.co/datasets/chizhikchi/CARES
- https://zenodo.org/record/7555181
- https://zenodo.org/record/3837305
- https://huggingface.co/datasets/lcampillos/ctebmsp
- https://zenodo.org/record/7614764
- https://github.com/ehealthkd/corpora/tree/master
- https://github.com/Vicomtech/NUBes-negation-uncertainty-biomedical-corpus
- https://huggingface.co/datasets/bigbio/meddocan
- https://zenodo.org/record/4270158
- https://zenodo.org/record/6803567
- https://huggingface.co/dccuchile/bert-base-spanish-wwm-cased
- https://huggingface.co/PlanTL-GOB-ES/roberta-large-bne
- https://huggingface.co/xlm-roberta-large
- https://huggingface.co/microsoft/mdeberta-v3-base
- https://platform.openai.com/docs/api-reference
- https://github.com/guilopgar/ClinicalCodingTransformerES
- https://huggingface.co/PlanTL-GOB-ES/bsc-bio-ehr-es
- https://github.com/iiconocimiento/survey-spanish-clinical-language-models
- https://huggingface.co/spaces/autoevaluate/leaderboards
- https://huggingface.co/IIC/BETO
- https://huggingface.co/IIC/XLM-R
- https://huggingface.co/IIC/roberta-large-bne-cantemist