Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Intelligence artificielle

Huatuo-26M : Une nouvelle ressource pour le QA médical

Un gros ensemble de données améliore la réponse aux questions médicales pour les locuteurs chinois.

― 7 min lire


Dataset Huatuo-26M RévéléDataset Huatuo-26M Révélémédicales pour les sinophones.Transformer la réponse aux questions
Table des matières

Ces dernières années, il y a eu un intérêt croissant pour utiliser la technologie pour aider dans les soins médicaux. Un domaine qui a progressé est le développement de systèmes de Question-Réponse (QR). Ces systèmes aident à répondre aux Questions médicales en utilisant de grands ensembles de données. Huatuo-26M est le plus grand ensemble de données de ce type en chinois, contenant 26 millions de paires de questions et Réponses liées à des sujets médicaux. Cet ensemble de données vise à soutenir à la fois les chercheurs et les praticiens en fournissant une source solide de connaissances médicales.

Le besoin d'un grand ensemble de données médicales

Le domaine Médical a des défis uniques quand il s'agit de répondre aux questions. Beaucoup de gens en Chine cherchent des infos sur des problèmes de santé en ligne, mais les ressources disponibles ne fournissent pas toujours des réponses précises ou complètes. De plus, la population parlant chinois est énorme, et leurs besoins en matière de santé diffèrent beaucoup de ceux des pays occidentaux. Un ensemble de données comme Huatuo-26M peut aider à combler ce fossé en améliorant l'accès à des informations médicales fiables.

Comment Huatuo-26M a été créé

L'ensemble de données a été développé en rassemblant des infos de diverses sources :

  1. Consultations médicales en ligne : Cela incluait des enregistrements d'un site de consultation médicale où des médecins répondent aux questions des patients. Environ 31 millions de paires ont été collectées, et après avoir filtré les doublons et caractères spéciaux, plus de 25 millions de paires restaient.

  2. Encyclopédies médicales : Des informations provenant de textes médicaux tels que des encyclopédies et des articles ont été utilisées. Cela incluait 8 700 entrées pour des maladies et 2 700 pour des médicaments de Wikipedia et d'autres sources.

  3. Bases de connaissances médicales : Certaines bases de connaissances médicales établies ont aussi été utilisées pour extraire des paires QR.

Après un traitement et un nettoyage minutieux, les 26 millions de paires QR ont été organisées dans Huatuo-26M.

Importance de l'ensemble de données

Cet ensemble de données ne sert pas seulement de ressource pour répondre aux questions, mais il agit aussi comme terrain d'entraînement pour des modèles qui aident à améliorer les systèmes QR. En testant différentes méthodes existantes sur cet ensemble de données, les chercheurs peuvent trouver de meilleures façons de répondre aux demandes médicales.

Évaluation des méthodes existantes

L'ensemble de données permet d'évaluer diverses méthodes existantes pour récupérer et générer des réponses. Les chercheurs ont testé différents modèles, comme BM25 et DeepCT pour la récupération et divers modèles de langue pour la génération. Étonnamment, les performances de ces modèles n'étaient pas aussi élevées que prévu, indiquant que le QR médical reste une tâche difficile, même avec des modèles avancés.

Cas d'utilisation de Huatuo-26M

L'ensemble de données a plusieurs applications pratiques :

  1. Entraîner des modèles pour d'autres ensembles de données : Grâce à sa taille, les modèles entraînés sur Huatuo-26M peuvent transférer des connaissances à d'autres ensembles de données QR, améliorant leur performance même avec moins d'exemples.

  2. Connaissance externe pour la génération augmentée par récupération (RAG) : Les riches informations dans Huatuo-26M peuvent améliorer la qualité de la génération de texte en réponse à des questions médicales en agissant comme une source de connaissances externes.

  3. Améliorer les modèles de langage pré-entraînés : Des modèles comme BERT et RoBERTa peuvent utiliser Huatuo-26M pour un entraînement continu, ce qui pourrait mener à de meilleures performances sur diverses tâches biomédicales.

Statistiques de l'ensemble de données

L'ensemble de données se compose principalement de questions colloquiales, ce qui le rend accessible aux utilisateurs quotidiens. En moyenne, les questions contiennent environ 44,6 mots, tandis que les réponses peuvent être plus longues, faisant en moyenne 120,7 mots. Cette diversité en longueur et en style entre questions et réponses reflète les véritables demandes médicales.

Distribution des questions

Les questions dans Huatuo-26M couvrent un large éventail de sujets. Cela inclut des maladies courantes comme les rhumes et les toux, ainsi que des conditions plus complexes comme l'hypertension et le diabète. L'ensemble de données capture à la fois les caractéristiques des patients et les connaissances médicales, fournissant un aperçu complet des demandes médicales que les gens peuvent avoir.

Défis du QR médical

Bien que Huatuo-26M montre du potentiel, il fait aussi face à des défis. Le domaine médical requiert souvent une expertise plus profonde comparée à des champs de connaissances générales. Beaucoup de modèles existants ont du mal à fournir des réponses précises en raison de la complexité des questions médicales et de la variabilité des situations des patients.

Évaluation basée sur la récupération

L'exploration initiale des méthodes de récupération a montré des niveaux de succès différents selon la source des questions. Les résultats récupérés de manière éparse, comme ceux des encyclopédies et des bases de connaissances, ont tendance à mieux performer que ceux dérivés des consultations en ligne. Cela s'explique par le fait que les questions médicales des consultations intègrent souvent des détails spécifiques à l'utilisateur que les modèles ne peuvent pas facilement interpréter.

Modèles génératifs et leur performance

Des modèles génératifs comme T5 et GPT2 ont aussi été testés sur l'ensemble de données. Ces modèles ont été affinés en utilisant les données d'entraînement de Huatuo-26M. Les résultats ont montré des améliorations significatives par rapport à leurs versions non entraînées, démontrant que le fine-tuning sur cet ensemble de données peut améliorer les capacités de génération de texte.

Applications futures

Il y a plein de façons dont Huatuo-26M peut être utilisé à l'avenir :

  1. Systèmes de dialogue : Au-delà des QR à tour unique, les travaux futurs pourraient impliquer la création de systèmes de dialogue qui fournissent des conseils médicaux personnalisés à travers des conversations.

  2. Traduction dans d'autres langues : Étant donné la taille de l'ensemble de données, le traduire dans différentes langues pourrait aider à toucher un public plus large, augmentant l'accès à des connaissances médicales.

  3. Amélioration continue : L'objectif est de créer une plateforme où les professionnels de la santé peuvent examiner et corriger les informations dans l'ensemble de données, garantissant qu'il reste à jour et précis.

Considérations éthiques

Avec le potentiel d'infos incorrectes, les considérations éthiques sont cruciales. Huatuo-26M peut contenir des inexactitudes dues à des erreurs dans les consultations médicales originales ou dans le processus d'extraction automatisé. Les auteurs reconnaissent cette limitation et soulignent la nécessité d'un examen approfondi par des experts médicaux pour garantir la fiabilité de l'ensemble de données.

Conclusion

Huatuo-26M se démarque comme une avancée significative dans le domaine des ensembles de données QR médicales, surtout pour la population sinophone. En offrant une vaste collection de paires de questions et réponses médicales, il ouvre des avenues pour améliorer la communication en santé, la recherche, et la technologie. Les initiatives en cours pour enrichir cet ensemble de données promettent un savoir médical plus riche et plus précis pour les utilisateurs futurs.

Source originale

Titre: Huatuo-26M, a Large-scale Chinese Medical QA Dataset

Résumé: In this paper, we release a largest ever medical Question Answering (QA) dataset with 26 million QA pairs. We benchmark many existing approaches in our dataset in terms of both retrieval and generation. Experimental results show that the existing models perform far lower than expected and the released dataset is still challenging in the pre-trained language model era. Moreover, we also experimentally show the benefit of the proposed dataset in many aspects: (i) trained models for other QA datasets in a zero-shot fashion; and (ii) as external knowledge for retrieval-augmented generation (RAG); and (iii) improving existing pre-trained language models by using the QA pairs as a pre-training corpus in continued training manner. We believe that this dataset will not only contribute to medical research but also facilitate both the patients and clinical doctors. See \url{https://github.com/FreedomIntelligence/Huatuo-26M}.

Auteurs: Jianquan Li, Xidong Wang, Xiangbo Wu, Zhiyi Zhang, Xiaolong Xu, Jie Fu, Prayag Tiwari, Xiang Wan, Benyou Wang

Dernière mise à jour: 2023-05-02 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.01526

Source PDF: https://arxiv.org/pdf/2305.01526

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires