Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Améliorer les diagnostics en radiologie avec des modèles de langue IA

Les modèles d'IA peuvent améliorer la façon dont les radiologues accèdent aux infos des patients pour de meilleurs diagnostics.

― 7 min lire


L'IA en Radiologie : UnL'IA en Radiologie : UnRevirement Totaldes problèmes de précision.les diagnostics en radiologie mais ontLes modèles de langage IA améliorent
Table des matières

Les Dossiers de santé électroniques (DSE) contiennent plein d'infos importantes qui peuvent aider les docs, surtout les radiologues, à faire de meilleures diagnostics. Mais souvent, ces dossiers sont pleins de données non structurées, comme des notes longues, ce qui rend le tout super difficile à parcourir rapidement. Du coup, c'est galère pour les radiologues de rassembler l'historique pertinent d'un patient ou des preuves qui pourraient les aider à poser un diagnostic.

Le Challenge du Relecture Manuelle

Les radiologues sont souvent pressés par le temps, et le volume de notes pour chaque patient peut rendre la revue manuelle difficile. Ils passent souvent à côté d'infos vitales présentes dans les DSE parce que lire des tonnes de notes pour dénicher des preuves pertinentes peut être inefficace et trop long. Résultat : les radiologues ont parfois une vision incomplète de l'historique médical d'un patient quand ils interprètent les résultats d'imagerie.

Le Rôle des Modèles de Langage de Grande Taille

Les récents progrès technologiques, surtout dans le domaine de l'intelligence artificielle, ont donné naissance aux Modèles de Langage de Grande Taille (MLGT). Ces modèles peuvent analyser les données non structurées et potentiellement offrir une solution aux défis rencontrés par les radiologues pour récupérer des infos pertinentes dans les DSE. Ils peuvent résumer des preuves en fonction de requêtes spécifiques faites par les cliniciens, ce qui rend le processus de diagnostic plus efficace.

Comment Fonctionnent les Modèles de Langage de Grande Taille

Dans notre démarche, on a proposé d'utiliser un MLGT nommé Flan-T5 XXL. Ce modèle peut évaluer si un patient est à risque ou a déjà une condition spécifique juste en se basant sur le texte des notes cliniques. Si la réponse est oui, le modèle résume alors les preuves soutenant cette évaluation. Ça peut commencer par une question simple : "Le patient est-il à risque de [Condition] ?" suivie d'un résumé des raisons pour lesquelles le modèle pense ça.

Le Processus d'Évaluation

Pour tester cette méthode, on a demandé à des radiologues de faire des évaluations manuelles des résultats du modèle. L'idée, c'était de voir si le MLGT pouvait fournir des infos à la fois précises et utiles par rapport aux méthodes de récupération traditionnelles. Les résultats ont montré que l'approche basée sur le MLGT a en général mieux fonctionné que les méthodes standards, offrant des résultats que les cliniciens préféraient plus souvent.

Hallucinations dans les Résultats

Malgré les résultats prometteurs, un gros défi est apparu : le modèle générait parfois des preuves fictives ou "hallucinées". Ça veut dire qu'il pouvait produire des affirmations qui semblent crédibles mais qui n'ont aucune véritable support dans les dossiers du patient. Ce problème pourrait induire les cliniciens en erreur, qui pourraient alors devoir vérifier l'exactitude des résultats du modèle par rapport aux notes réelles. Une telle inadéquation peut anéantir les gains en efficacité et en sécurité que le modèle pourrait offrir.

Identifier les Hallucinations

On a cherché des façons de déterminer quand le modèle hallucinaient des preuves. Une approche consistait à évaluer la confiance du modèle dans ses résultats. Quand le modèle était moins sûr d'une réponse, il avait plus de chances d’halluciner. En utilisant ces scores de confiance, les cliniciens pourraient peut-être filtrer les résultats peu fiables, choisissant de ne pas agir sur des infos incertaines.

La Nécessité d’Evidence Contextuelle

Pour vraiment aider au diagnostic, le modèle doit récupérer deux types de preuves des DSE :

  1. Preuve de Risque : Ça indique si un patient pourrait développer une condition à l'avenir.
  2. Preuve Actuelle : Ça montre si un patient éprouve actuellement une condition.

Par exemple, si un patient a récemment subi une opération et est sous anticoagulants, il peut être à risque d'hémorragie. À l'inverse, si l'imagerie montre des signes de saignement, ça indiquerait qu'il a actuellement une hémorragie.

Considérations de Confidentialité

Lors de cette recherche, il était essentiel de prendre en compte la confidentialité des patients. On a utilisé des modèles qui pouvaient être gérés en interne pour se conformer aux régulations, évitant les systèmes basés sur le cloud qui pourraient exposer des données sensibles.

Évaluation de l'Approche

Le processus d'évaluation a impliqué une collaboration avec des radiologues, qui ont examiné les résultats du MLGT et des méthodes de récupération traditionnelles sur une sélection de notes de patients. Ils devaient évaluer si les preuves mises en avant étaient exactes et pertinentes pour des diagnostics spécifiques. Globalement, les résultats du MLGT se sont révélés plus utiles et informatifs par rapport à ce que les méthodes traditionnelles proposaient.

Accord entre Radiologues et Coût Temporel

Pour mesurer la cohérence, différents radiologues ont été invités à évaluer les mêmes résultats. De cette manière, on pouvait vérifier à quel point leurs jugements étaient alignés. L'accord entre les radiologues a montré leur diversité de perspectives sur ce qui constituait une preuve utile. À noter également le temps qu'il a fallu pour vérifier les résultats du modèle, avec les suggestions du MLGT nécessitant un temps d'évaluation plus long à cause des vérifications minutieuses.

Métriques d'Évaluation des Preuves

Pour mieux comprendre l'efficacité du modèle, on a classé les résultats selon leur utilité perçue. Les radiologues ont noté les preuves sur une échelle pour capturer leur pertinence par rapport à la requête initiale. Cette notation a donné une idée de la façon dont les résultats du MLGT se comparaient aux méthodes traditionnelles dans un contexte clinique pratique.

Preuves Faiblement Corrélées

L'un des défis identifiés lors de l'évaluation était que le modèle sortait parfois des preuves qui, bien que plausibles, avaient des liens faibles avec le diagnostic du patient. Même si le modèle avait récupéré quelque chose qui semblait sensé d'un point de vue général, ça ne s'appliquait pas nécessairement au patient individuel, limitant donc son utilité.

Futures Directions pour la Recherche

Les résultats mettent en lumière un domaine à explorer à l'avenir : améliorer comment les MLGT peuvent mieux soutenir les cliniciens sans mener à la fabrication d'infos non pertinentes ou inexactes. Renforcer la capacité du modèle à distinguer entre des scénarios probables et peu probables pourrait offrir une voie pour atténuer le problème des hallucinations.

Dernières Pensées

Dans l'ensemble, l'utilisation des MLGT pour extraire des preuves des DSE montre un potentiel pour aider les radiologues dans leurs processus de diagnostic. Cependant, il est crucial de s'attaquer aux préoccupations entourant la précision et la pertinence des résultats. Grâce à des recherches continues, des améliorations peuvent être apportées non seulement pour optimiser les flux de travail des cliniciens mais aussi pour contribuer à de meilleurs résultats de soins pour les patients. En regardant vers l'avenir, l'intersection de la technologie avancée et de la santé offre de belles promesses, mais une mise en œuvre et une évaluation prudentes seront nécessaires pour s'assurer que ces outils remplissent leur objectif de manière efficace.

Source originale

Titre: Retrieving Evidence from EHRs with LLMs: Possibilities and Challenges

Résumé: Unstructured data in Electronic Health Records (EHRs) often contains critical information -- complementary to imaging -- that could inform radiologists' diagnoses. But the large volume of notes often associated with patients together with time constraints renders manually identifying relevant evidence practically infeasible. In this work we propose and evaluate a zero-shot strategy for using LLMs as a mechanism to efficiently retrieve and summarize unstructured evidence in patient EHR relevant to a given query. Our method entails tasking an LLM to infer whether a patient has, or is at risk of, a particular condition on the basis of associated notes; if so, we ask the model to summarize the supporting evidence. Under expert evaluation, we find that this LLM-based approach provides outputs consistently preferred to a pre-LLM information retrieval baseline. Manual evaluation is expensive, so we also propose and validate a method using an LLM to evaluate (other) LLM outputs for this task, allowing us to scale up evaluation. Our findings indicate the promise of LLMs as interfaces to EHR, but also highlight the outstanding challenge posed by "hallucinations". In this setting, however, we show that model confidence in outputs strongly correlates with faithful summaries, offering a practical means to limit confabulations.

Auteurs: Hiba Ahsan, Denis Jered McInerney, Jisoo Kim, Christopher Potter, Geoffrey Young, Silvio Amir, Byron C. Wallace

Dernière mise à jour: 2024-06-10 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2309.04550

Source PDF: https://arxiv.org/pdf/2309.04550

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires