Simplifier les textes biomédicaux pour une meilleure littératie en santé
Cette étude vise à rendre la littérature biomédicale plus facile à comprendre.
― 7 min lire
Table des matières
La littérature biomédicale contient souvent un langage complexe et des termes difficiles à comprendre pour le grand public. Simplifier ce langage est important pour améliorer la Littératie en santé. Grâce aux Modèles de Traitement du langage naturel (NLP), on peut rendre l'information de santé plus accessible à tous.
Dans cette étude, on a examiné comment les grands modèles de langage (LLMs) avancés peuvent simplifier des résumés biomédicaux. On a utilisé un ensemble de données spécialement conçu pour adapter le langage simple aux textes biomédicaux. Nos méthodes incluaient le fine-tuning de modèles et l'utilisation de stratégies d'apprentissage basées sur des prompts sur plusieurs modèles, y compris T5, SciFive, BART et GPT.
On a évalué nos résultats en utilisant diverses métriques automatiques, y compris BLEU, ROUGE, SARI et BERTScore, ainsi que des évaluations humaines.
Littératie en santé
D'après l'Organisation mondiale de la santé (OMS), la littératie en santé implique les compétences nécessaires pour accéder et utiliser efficacement l'information sur la santé. Le service national de santé du Royaume-Uni (NHS) souligne deux composants principaux de la littératie en santé : la capacité d'une personne à comprendre l'information et la structure du système de santé lui-même.
Les professionnels de la santé écrivent souvent en termes techniques sans tenir compte de la compréhension du public. Cela peut freiner les gens dans la gestion efficace de leur santé. Des recherches ont montré qu'une faible littératie en santé est liée à de moins bons résultats de santé et à une utilisation moins efficace des services de santé. Ainsi, adapter l'information scientifique en langage simple est crucial pour partager les connaissances en santé avec le public.
Travaux connexes
Pour améliorer la littératie en santé, des travaux antérieurs se sont concentrés sur la Simplification des textes biomédicaux. Un effort notable a consisté à développer une tâche qui résume des revues biomédicales complexes en un langage plus simple. Les chercheurs ont exploré diverses techniques, y compris l'utilisation de méthodes automatisées pour évaluer la qualité et la lisibilité.
Des études ont montré les avantages de différents modèles dans la simplification de textes biomédicaux. Des travaux récents ont utilisé des ensembles de données contenant du langage courant et des textes d'experts. Ces modèles ont amélioré les résultats pour des tâches comme résumer des rapports de radiologie et traduire un langage complexe en termes plus simples.
Méthodologies
Les méthodes utilisées dans notre étude impliquaient le fine-tuning de plusieurs grands modèles de langage sur un ensemble de données créé pour l'adaptation du langage simple des résumés biomédicaux. Les modèles que nous avons utilisés incluent T5, SciFive, BART, et divers modèles GPT d'OpenAI. On a aussi appliqué des techniques de mécanismes de contrôle pour améliorer le processus de simplification.
Vue d'ensemble des modèles
Les différents modèles avec lesquels nous avons expérimenté sont :
T5 : T5 est un modèle avancé conçu pour gérer diverses tâches linguistiques. Il est efficace pour générer des textes simplifiés tout en maintenant le sens.
SciFive : SciFive est spécifiquement entraîné pour des tâches biomédicales et excelle dans la compréhension de la terminologie et des concepts médicaux.
BART : BART combine des techniques de BERT et GPT. Il utilise plusieurs stratégies de masquage pour générer des sorties significatives.
Modèles GPT : Les modèles GPT, comme GPT-3.5 et GPT-4, offrent d'excellentes capacités en génération de texte et en simplification.
Techniques d'entraînement
On a utilisé une variété de stratégies d'entraînement, en incluant le fine-tuning avec des ensembles de données existants et l'utilisation de méthodes d'apprentissage basées sur des prompts. Des tokens de contrôle ont été intégrés dans BART pour guider le processus de simplification. Ces tokens aident à gérer la complexité de la sortie en ajustant divers paramètres liés à la structure des phrases et à la clarté.
Métriques d'évaluation
On a utilisé plusieurs métriques pour évaluer la performance des modèles :
BLEU : Mesure le chevauchement des n-grams entre les textes générés et les références.
ROUGE : Se concentre sur le rappel et vérifie combien de n-grams significatifs des références apparaissent dans les sorties générées.
SARI : Évalue la fluidité et l'adéquation des textes générés, en considérant la précision, le rappel et la longueur.
BERTScore : Analyse la similarité sémantique en comparant les embeddings d'un modèle BERT pré-entraîné.
Expériences et résultats
On a utilisé l'ensemble de données PLABA, qui se compose de 750 résumés biomédicaux simplifiés pour la compréhension du public. L'ensemble de données a été divisé en ensembles d'entraînement, de validation et de test, garantissant une distribution équilibrée pour évaluer correctement les résultats des modèles.
Évaluation automatique
Les résultats ont montré que les modèles fine-tunés ont bien performé sur diverses métriques. Par exemple, le modèle BART avec des tokens de contrôle a obtenu le meilleur score SARI, tandis que T5 a obtenu le meilleur score BERTScore, ce qui indique un équilibre entre simplification et préservation du sens.
Évaluation humaine
Dans les évaluations humaines, on a sélectionné au hasard des sorties de nos modèles pour évaluer la clarté et la rétention d'information. Les évaluateurs ont noté les phrases sur une échelle allant de fortement d'accord à fortement en désaccord, fournissant des idées sur la manière dont les modèles ont simplifié les textes sans perdre des détails importants.
Discussion
Les résultats soulignent que, bien que T5 et BART aient leurs forces, ils présentent aussi des différences critiques. T5 maintenait souvent le sens du texte original mais était moins efficace pour le simplifier. En revanche, BART a su simplifier le langage plus efficacement, mais cela se faisait parfois au détriment de l'exactitude dans la préservation du sens voulu.
Comparaisons de modèles
En comparant les modèles, il était évident qu'il y a un compromis entre la simplification et la rétention du sens. T5 a montré de très bonnes capacités à préserver le sens mais a offert moins de simplification. BART, bien qu'il soit meilleur en clarté, a parfois introduit des malentendus ou changé le message initial.
Conclusions et travaux futurs
Ce travail démontre le potentiel des grands modèles de langage pour simplifier les résumés biomédicaux afin d'améliorer la compréhension du public sur l'information santé. Pour l'avenir, on prévoit d'explorer d'autres LLMs et techniques de fine-tuning pour améliorer encore l'efficacité de nos modèles. En analysant plus d'ensembles de données et en améliorant les méthodes d'évaluation, on vise à créer des outils de simplification qui peuvent significativement aider à la littératie en santé auprès de divers publics.
Considérations éthiques
Il est crucial de noter que bien que ces modèles puissent produire des sorties raisonnables, ils ne doivent pas être vus comme des remplacements pour des conseils de santé professionnels. Les résultats indiquent la nécessité d'un affinage et d'une validation continus de ces modèles pour un usage public.
Contributions des auteurs
Chaque auteur a contribué à la recherche, de la conduite des expériences et évaluations à l'écriture de diverses sections de ce travail. La collaboration a assuré une étude complète abordant à la fois les aspects techniques et pratiques de la simplification des textes biomédicaux.
Titre: Investigating Large Language Models and Control Mechanisms to Improve Text Readability of Biomedical Abstracts
Résumé: Biomedical literature often uses complex language and inaccessible professional terminologies. That is why simplification plays an important role in improving public health literacy. Applying Natural Language Processing (NLP) models to automate such tasks allows for quick and direct accessibility for lay readers. In this work, we investigate the ability of state-of-the-art large language models (LLMs) on the task of biomedical abstract simplification, using the publicly available dataset for plain language adaptation of biomedical abstracts (\textbf{PLABA}). The methods applied include domain fine-tuning and prompt-based learning (PBL) on: 1) Encoder-decoder models (T5, SciFive, and BART), 2) Decoder-only GPT models (GPT-3.5 and GPT-4) from OpenAI and BioGPT, and 3) Control-token mechanisms on BART-based models. We used a range of automatic evaluation metrics, including BLEU, ROUGE, SARI, and BERTscore, and also conducted human evaluations. BART-Large with Control Token (BART-L-w-CT) mechanisms reported the highest SARI score of 46.54 and T5-base reported the highest BERTscore 72.62. In human evaluation, BART-L-w-CTs achieved a better simplicity score over T5-Base (2.9 vs. 2.2), while T5-Base achieved a better meaning preservation score over BART-L-w-CTs (3.1 vs. 2.6). We also categorised the system outputs with examples, hoping this will shed some light for future research on this task. Our code, fine-tuned models, and data splits are available at \url{https://github.com/HECTA-UoM/PLABA-MU} \begin{IEEEkeywords} Large Language Models, Text Simplification, Biomedical NLP, Control Mechanisms, Health Informatics \end{IEEEkeywords}
Auteurs: Zihao Li, Samuel Belkadi, Nicolo Micheletti, Lifeng Han, Matthew Shardlow, Goran Nenadic
Dernière mise à jour: 2024-03-16 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.13202
Source PDF: https://arxiv.org/pdf/2309.13202
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.overleaf.com/read/jvvrwgqjyhzc
- https://www.overleaf.com/read/czvbxxzktvbt
- https://github.com/HECTA-UoM/PLABA-MU
- https://www.england.nhs.uk/personalisedcare/health-literacy/
- https://www.novartis.com/node/65241
- https://bionlp.nlm.nih.gov/plaba2023/
- https://www.mosaicml.com/
- https://huggingface.co/stanford-crfm/BioMedLM
- https://github.com/microsoft/LoRA
- https://drive.google.com/file/d/1GKHLtuR89PBTa0HGwm70V69dAnwrv-Q-/view?usp=sharing
- https://openai.com/blog/openai-api
- https://www.overleaf.com/learn/latex/Positioning_images_and_tables
- https://doi.org/10.48550/arxiv.2210.11416
- https://github.com/huggingface/evaluate
- https://zenodo.org/record/7429310
- https://docs.google.com/document/d/1PVPL5PpcvfLactIZfktBxDnYilaQfYLwDSVE10MJvhY/edit?usp=sharing
- https://www.stat.purdue.edu/~lfindsen/stat503/t-Dist.pdf
- https://www.itl.nist.gov/div898/handbook/eda/section3/eda3664.htm
- https://www.itl.nist.gov/div898/handbook/eda/section3/eda3672.htm
- https://mathworld.wolfram.com/Studentst-Distribution.html