Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Évaluer les modèles de langage dans les examens médicaux japonais

Une étude évalue la performance des LLM sur les tests de licence médicale au Japon.

― 8 min lire


LLMs dans les examensLLMs dans les examensmédicaux japonaisl'IA dans la santé.Explorer les forces et faiblesses de
Table des matières

Alors que les grands modèles de langage (LLMs) comme ChatGPT et GPT-4 deviennent de plus en plus populaires dans différentes langues, c'est important de tester leur Performance dans des domaines autres qu'anglais. Cette étude évalue à quel point ces modèles peuvent bien performer aux examens nationaux de licence médicale Japonais des cinq dernières années. L'objectif est de vérifier leurs forces et leurs faiblesses dans des contextes médicaux où la précision est essentielle.

Notre équipe de recherche est composée de locuteurs natifs japonais qui travaillent dans le traitement du langage naturel (NLP) et d'un médecin en exercice au Japon. Ce mélange de compétences aide à s'assurer que l'évaluation est approfondie et pertinente pour la pratique médicale réelle au Japon.

Les résultats montrent que GPT-4 fait mieux que ChatGPT et GPT-3 à ces examens, réussissant tous les cinq ans des épreuves. Cette découverte indique la possibilité d'utiliser les LLMs efficacement dans une langue qui est assez différente de l'anglais. Cependant, il y a aussi des limitations significatives avec les APIs LLM actuelles. Par exemple, les modèles choisissent parfois des réponses qui ne sont pas acceptables dans la pratique médicale au Japon, comme suggérer des actions illégales comme l'euthanasie.

Un autre problème réside dans le coût d'utilisation des LLMs pour le japonais. La façon dont les caractères japonais sont traités nécessite généralement plus de données, ce qui rend l'utilisation plus coûteuse comparée à l'anglais. De plus, la quantité maximale de texte que les LLMs peuvent gérer à la fois est plus petite pour le japonais, ce qui peut limiter leur efficacité.

Pour aider la recherche future, nous mettons nos données de référence à disposition, ainsi que tous les résultats des modèles et les détails des examens. Nous espérons qu'en partageant ces informations, cela encouragera d'autres avancées dans l'utilisation des LLMs pour diverses applications.

Comprendre l'examen de licence médicale japonais

L'examen de licence médicale japonais est passé par les étudiants en médecine en dernière année chaque année. Cet examen se compose de 400 questions à choix multiples couvrant un large éventail de sujets médicaux, de la science de base à la santé publique. Le test vise à évaluer les connaissances d'un étudiant et sa préparation à pratiquer la médecine.

Bien qu'il y ait quelques questions d'arithmétique, la plupart des items nécessitent de sélectionner la meilleure option parmi cinq réponses possibles. Il est important de noter qu'il y a certaines réponses considérées comme interdites au Japon. Si les candidats choisissent quatre options interdites ou plus, ils échouent automatiquement à l'examen, peu importe leur score global.

L'étude révèle que les LLMs peuvent parfois sélectionner ces choix interdits, ce qui peut avoir des implications sérieuses dans des situations réelles. Cela souligne l'importance de s'assurer que tout outil d'IA utilisé dans le secteur de la santé est bien au courant des normes légales et éthiques.

Performance des modèles de langage

Notre recherche évalue trois LLMs : GPT-3, ChatGPT, et GPT-4. Ces modèles sont développés pour gérer différentes tâches sans nécessiter d'ajustements significatifs de leur formation. L'évaluation se fait dans un format fermé, ce qui signifie que les modèles ne peuvent pas compter sur des ressources ou des informations externes pendant le test.

En utilisant des invites, les résultats varient d'un modèle à l'autre. GPT-4 performe constamment le mieux sur les cinq ans d'examens. Cependant, il est encore en dessous de la performance moyenne des étudiants en médecine, ce qui indique que, bien que ces modèles puissent obtenir des résultats impressionnants, ils ne correspondent pas encore à la compétence humaine dans un domaine spécialisé comme la médecine.

Choix interdits

Dans le cadre de l'examen, il y a des questions à choix multiples où certaines réponses sont marquées comme interdites. Par exemple, suggérer l'euthanasie n'est pas acceptable au Japon. Nos évaluations montrent que les LLMs sélectionnent parfois ces options interdites, démontrant un risque dans l'application de ces modèles dans des domaines sensibles comme la santé.

À travers notre analyse, nous constatons que GPT-4 et ChatGPT-EN, qui traduisent les questions avant de répondre, évitent de faire trop de sélections interdites, mais ils ont quand même des incidents de choix de mauvaises réponses. Les différences de performance entre les modèles peuvent signaler des domaines à améliorer.

Défis des modèles multilingues

Travailler avec des langues comme le japonais présente des défis uniques qui ne se voient pas habituellement en utilisant l'anglais. Par exemple, le japonais nécessite souvent plus de tokens, ou pièces de données, pour représenter la même information. Cela augmente le coût d'utilisation des APIs LLM pour des tâches en japonais comparé à l'anglais. De plus, la fenêtre de contexte plus petite pour le japonais signifie que des détails importants peuvent être perdus, ce qui peut affecter l'exactitude des réponses.

Ces caractéristiques soulignent la nécessité de progrès dans la manière dont les langues, en particulier celles qui diffèrent beaucoup de l'anglais, sont gérées au sein des systèmes d'IA. Des améliorations dans les méthodes de tokenisation pourraient améliorer à la fois l'efficacité coût et la performance des LLMs dans diverses langues.

L'écart entre la performance de l'IA et celle des humains

Malgré des promesses, les modèles de langage actuels ne correspondent toujours pas à la performance moyenne des étudiants en médecine. Il y a une corrélation claire entre la précision des étudiants et la capacité du modèle à prédire des réponses correctes. Lorsque les étudiants trouvent une question difficile, les modèles d'IA ont aussi du mal. Cela indique qu'un plus grand entraînement et une meilleure affinement sont nécessaires pour que les LLMs fonctionnent au niveau d'experts humains dans des domaines spécifiques.

De plus, l'évaluation de ces modèles doit aussi tenir compte de l'application dans le monde réel. Les questions qui nécessitent des connaissances spécialisées sur les pratiques locales, les lois et les systèmes de santé peuvent conduire à des réponses incorrectes. Les LLMs ont besoin de moyens pour incorporer le contexte local afin de fournir des réponses valides dans des contextes éducatifs et pratiques.

Directions futures

Cette recherche est un premier pas vers une meilleure compréhension de la façon dont les LLMs fonctionnent dans des domaines spécialisés dans des langues non anglaises. Une évaluation améliorée est cruciale pour améliorer la fiabilité de ces modèles. À mesure que les LLMs continuent d'évoluer, il est essentiel de mesurer leurs compétences dans divers contextes, en particulier dans des domaines à enjeux comme la médecine, les finances et le droit.

En fin de compte, bien que les LLMs présentent des capacités remarquables, la prudence est nécessaire lorsqu'on les déploie dans des domaines critiques à moins qu'ils ne puissent fournir de manière fiable des informations précises et pertinentes. Une recherche continue est essentielle pour faire avancer ces outils de manière à aider les professionnels dans de multiples langues et cultures.

Conclusion

L'évaluation des modèles de langage dans le contexte des Examens de licence médicale japonais fournit des informations précieuses sur leur potentiel et leurs limitations. Alors que les LLMs comme GPT-4 montrent une forte performance, comprendre leurs faiblesses est tout aussi important. Cette étude souligne qu'une attention particulière est nécessaire lors de l'intégration de l'IA dans des domaines sensibles, en veillant à ce que les modèles soient au courant et respectent les lois et l'éthique locales.

Des recherches supplémentaires, y compris des tests de modèles avec des contextes linguistiques plus diversifiés et des exigences du monde réel, sont nécessaires pour améliorer la performance et la sécurité des applications d'IA. Grâce à des références partagées et à des données ouvertes, le domaine peut avancer vers une utilisation plus efficace de l'IA dans diverses langues et domaines, menant finalement à de meilleurs résultats dans l'éducation et la pratique.

Source originale

Titre: Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations

Résumé: As large language models (LLMs) gain popularity among speakers of diverse languages, we believe that it is crucial to benchmark them to better understand model behaviors, failures, and limitations in languages beyond English. In this work, we evaluate LLM APIs (ChatGPT, GPT-3, and GPT-4) on the Japanese national medical licensing examinations from the past five years, including the current year. Our team comprises native Japanese-speaking NLP researchers and a practicing cardiologist based in Japan. Our experiments show that GPT-4 outperforms ChatGPT and GPT-3 and passes all six years of the exams, highlighting LLMs' potential in a language that is typologically distant from English. However, our evaluation also exposes critical limitations of the current LLM APIs. First, LLMs sometimes select prohibited choices that should be strictly avoided in medical practice in Japan, such as suggesting euthanasia. Further, our analysis shows that the API costs are generally higher and the maximum context size is smaller for Japanese because of the way non-Latin scripts are currently tokenized in the pipeline. We release our benchmark as Igaku QA as well as all model outputs and exam metadata. We hope that our results and benchmark will spur progress on more diverse applications of LLMs. Our benchmark is available at https://github.com/jungokasai/IgakuQA.

Auteurs: Jungo Kasai, Yuhei Kasai, Keisuke Sakaguchi, Yutaro Yamada, Dragomir Radev

Dernière mise à jour: 2023-04-05 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2303.18027

Source PDF: https://arxiv.org/pdf/2303.18027

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires