Simple Science

La science de pointe expliquée simplement

# Physique# Intelligence artificielle# Calcul et langage# Physique médicale

Utiliser des modèles de langage pour résumer les rapports PET

Une étude révèle que les modèles de langage peuvent générer des impressions utiles sur les rapports PET.

― 8 min lire


IA pour les résumés deIA pour les résumés derapports PETl'amélioration des rapports PET.Examine le rôle de l'IA dans
Table des matières

Les radiologues rédigent des rapports pour expliquer les Résultats des tests d'imagerie médicale. Ces rapports sont super importants pour partager des infos cruciales sur l'état d'un patient avec d'autres Médecins et l'équipe de soins. Parmi les différents tests d'imagerie, les scans PET de tout le corps sont connus pour être plus longs et plus complexes. Dans un rapport PET, la section des résultats liste plein d'observations du scan, tandis que la section des Impressions donne un résumé des points les plus importants. Comme d'autres médecins dépendent beaucoup de la section des impressions pour prendre des décisions de traitement, elle doit être à la fois précise et complète. Cependant, rédiger ces impressions peut prendre beaucoup de temps et peut mener à des erreurs. Les modèles de langage large (LLMs) offrent une nouvelle manière d'accélérer ce processus en écrivant automatiquement des impressions basées sur les résultats.

Contexte

Bien que les LLMs aient été utilisés pour résumer les résultats de divers tests d'imagerie, ils n'ont pas encore été largement appliqués aux rapports PET de tout le corps. Les rapports PET sont nettement plus longs que ceux des autres tests, contenant souvent entre 250 et 500 mots dans la section des résultats. Cette longueur pose des défis, car il y a plus de chances de rater des infos clés lors de la génération des impressions. De plus, chaque médecin a son propre style de report, ce qui doit être pris en compte pour des résultats plus personnalisés. Adapter les LLMs pour résumer les rapports PET implique des défis spécifiques.

Évaluer le succès des LLMs dans la production de ces impressions est aussi délicat, car il peut y avoir plusieurs façons valides de résumer la même info. L'Évaluation par des experts est considérée comme la meilleure manière d'évaluer la qualité, mais ce n'est pas pratique pour les médecins de vérifier la sortie de chaque modèle. Pour y remédier, des études récentes ont développé des métriques d'évaluation pour mesurer à quel point ces modèles résument bien les documents médicaux. Cependant, on n'a pas encore déterminé à quel point ces métriques sont efficaces pour les impressions PET et à quel point elles correspondent aux avis des médecins.

L'étude

L'objectif de cette étude était de voir si les LLMs entraînés sur un grand nombre de rapports PET pouvaient résumer précisément les résultats et créer des impressions pour une utilisation pratique. Les chercheurs ont entraîné 12 modèles de langage différents en utilisant un ensemble de données de rapports PET et ont évalué leur performance avec différentes métriques. Le modèle le plus performant a ensuite été testé pour sa capacité à produire des impressions cliniquement utiles.

Collecte de données

Un total de 37 370 rapports PET collectés dans un hôpital entre 2010 et 2022 ont été utilisés dans l'étude. Ces rapports ont été anonymisés pour protéger les infos des patients. Les données ont été divisées en groupes pour l'entraînement, la validation et le test. 100 rapports supplémentaires d'une autre source ont également été collectés pour des tests externes.

Prétraitement des rapports

Deux types de modèles de langage ont été testés : des modèles encodeurs-décodeurs et des modèles uniquement décodeurs. Le premier set nécessitait un formatage spécifique, où les premières lignes comprenaient des détails sur le scan et l'identité du médecin. Le deuxième type a utilisé une approche différente, en commençant par une instruction demandant au modèle de générer l'impression basée sur le rapport donné. Les impressions cliniques réelles des rapports ont été utilisées pour l'entraînement et l'évaluation du modèle.

Modèles de langage pour les rapports PET

L'étude était axée sur la summarisation, où les modèles doivent interpréter les résultats au lieu de simplement répéter des parties de la section des résultats. Les chercheurs ont entraîné plusieurs modèles encodeurs-décodeurs et décodeurs uniquement pour voir lesquels performaient le mieux en générant des impressions précises. Les modèles affinés ont ensuite été évalués avec diverses métriques d'évaluation pour identifier celui qui avait la meilleure performance pour l'évaluation par des experts.

Évaluation de la performance

Pour déterminer quelles métriques d'évaluation étaient les mieux corrélées aux préférences des médecins, les chercheurs ont présenté les impressions générées par le modèle à deux médecins qui les ont notées. Les métriques ayant la corrélation la plus forte ont été utilisées pour sélectionner le modèle le plus performant.

Dans la phase d'évaluation par des experts, trois médecins en médecine nucléaire ont passé en revue un total de 24 rapports, en évaluant la qualité des impressions générées par le modèle. Ils ont utilisé des critères spécifiques pour évaluer ces impressions et les ont également comparées à des impressions qu'ils avaient écrites eux-mêmes et à celles d'autres médecins.

Résultats

L'étude a révélé que deux métriques, nommées BARTScore et PEGASUSScore, avaient les plus fortes corrélations avec les préférences des médecins. Le modèle PEGASUS a été identifié comme le meilleur. Lorsque les médecins ont examiné les impressions générées par PEGASUS dans leur propre style, un nombre significatif a été considéré comme cliniquement acceptable, ce qui suggère que ce modèle peut produire des résultats utiles pour des applications réelles.

Lorsque les médecins ont évalué les impressions générées pour leurs propres rapports, 89 % ont été notées comme cliniquement acceptables. Cependant, la note d'utilité moyenne était légèrement inférieure à celle des impressions qu'ils avaient écrites à l'origine. Cette différence a été attribuée à des zones nécessitant des améliorations, comme la justesse factuelle et la clarté.

En outre, lors de l'évaluation des impressions d'autres médecins, les scores étaient encore plus bas que ceux de leur propre travail, soulignant la forte préférence des médecins pour leurs styles de rapport uniques. Malgré les légères différences dans les niveaux de satisfaction, l'utilité générale des impressions générées par PEGASUS était considérée comme comparable à celles d'autres médecins.

Défis rencontrés par le modèle

Bien que la majorité des impressions générées par PEGASUS soient acceptables, certains problèmes courants ont été identifiés. Des inexactitudes factuelles étaient un problème fréquent, avec des occasions de mauvaise interprétation. De plus, le modèle produisait parfois des diagnostics qui étaient trop sûrs sans preuves suffisantes. Les recommandations faites par le modèle pouvaient également être vagues, rendant leur utilisation difficile pour les médecins dans la pratique clinique. Ces problèmes soulignent le besoin d'une révision et d'une édition approfondies par les médecins avant de finaliser les rapports.

Limitations de l'étude

Plusieurs limitations ont été identifiées tout au long de l'étude. Par exemple, lors de l'affinage de certains modèles, seule une méthode simple d'adaptation au domaine a été utilisée en raison de ressources informatiques limitées. L'étude n'a manipulé qu'un seul élément de l'entrée pour ajuster le style des impressions générées, laissant d'autres méthodes potentielles inexploitées.

Les tests externes ont montré une chute notable des scores d'évaluation, suggérant que les différences dans les styles de rapport entre le groupe de formation interne et les médecins externes affectaient la performance. Enfin, comme l'ensemble de données provenait d'un seul établissement, les recherches futures devraient viser à impliquer plusieurs établissements pour améliorer les résultats.

Conclusion

Cette étude a examiné comment les grands modèles de langage pourraient automatiser la génération d'impressions pour les rapports PET de tout le corps. Les résultats ont indiqué que le modèle le plus performant, PEGASUS, peut créer des impressions personnalisées et cliniquement utiles dans la plupart des cas. Étant donné ses performances, le modèle pourrait être intégré dans des milieux cliniques pour aider à accélérer la rédaction des rapports PET en préparant automatiquement des impressions initiales basées sur les résultats disponibles.

L'étude reconnaît le soutien de diverses sources de financement, tout en précisant que les points de vue exprimés dans le travail sont ceux des auteurs et ne reflètent pas nécessairement les positions d'aucune organisation commanditaire.

En conclusion, bien que des défis subsistent, le potentiel des LLMs pour améliorer le processus de création de rapports médicaux est prometteur et peut conduire à une meilleure efficacité dans les milieux de santé.

Source originale

Titre: Automatic Personalized Impression Generation for PET Reports Using Large Language Models

Résumé: In this study, we aimed to determine if fine-tuned large language models (LLMs) can generate accurate, personalized impressions for whole-body PET reports. Twelve language models were trained on a corpus of PET reports using the teacher-forcing algorithm, with the report findings as input and the clinical impressions as reference. An extra input token encodes the reading physician's identity, allowing models to learn physician-specific reporting styles. Our corpus comprised 37,370 retrospective PET reports collected from our institution between 2010 and 2022. To identify the best LLM, 30 evaluation metrics were benchmarked against quality scores from two nuclear medicine (NM) physicians, with the most aligned metrics selecting the model for expert evaluation. In a subset of data, model-generated impressions and original clinical impressions were assessed by three NM physicians according to 6 quality dimensions (3-point scale) and an overall utility score (5-point scale). Each physician reviewed 12 of their own reports and 12 reports from other physicians. Bootstrap resampling was used for statistical analysis. Of all evaluation metrics, domain-adapted BARTScore and PEGASUSScore showed the highest Spearman's rank correlations (0.568 and 0.563) with physician preferences. Based on these metrics, the fine-tuned PEGASUS model was selected as the top LLM. When physicians reviewed PEGASUS-generated impressions in their own style, 89% were considered clinically acceptable, with a mean utility score of 4.08 out of 5. Physicians rated these personalized impressions as comparable in overall utility to the impressions dictated by other physicians (4.03, P=0.41). In conclusion, personalized impressions generated by PEGASUS were clinically useful, highlighting its potential to expedite PET reporting.

Auteurs: Xin Tie, Muheon Shin, Ali Pirasteh, Nevein Ibrahim, Zachary Huemann, Sharon M. Castellino, Kara M. Kelly, John Garrett, Junjie Hu, Steve Y. Cho, Tyler J. Bradshaw

Dernière mise à jour: 2023-10-17 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2309.10066

Source PDF: https://arxiv.org/pdf/2309.10066

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Liens de référence

Plus d'auteurs

Articles similaires