Valutare l'IA nei Sommari di Dimissione Clinica
Lo studio esamina l'efficacia dell'IA nella generazione di sommari di dimissione dei pazienti.
― 7 leggere min
Indice
La documentazione clinica è fondamentale per fornire cure di alta qualità ai pazienti. Negli anni, il modo in cui i professionisti della salute documentano le informazioni sui pazienti è passato dalla carta ai sistemi elettronici conosciuti come Cartelle Cliniche Elettroniche (EHR). Questa transizione ha reso la documentazione più complicata. I medici passano più tempo sui compiti legati agli EHR; studi dimostrano che per ogni ora trascorsa con un paziente, potrebbero dover lavorare altre due ore sulla documentazione EHR. Questo aumento del carico di lavoro contribuisce al burnout dei medici, che può influenzare negativamente le cure ai pazienti.
Il Ruolo dei Riassunti di Dimissione
Un documento chiave nella documentazione clinica è il riassunto di dimissione, creato quando i pazienti lasciano l'ospedale o il Pronto Soccorso (ED). Questi riassunti giocano un ruolo vitale nella condivisione delle informazioni sui pazienti e nella fornitura di istruzioni per le cure continue. Tuttavia, scrivere riassunti di dimissione può richiedere molto tempo, portando a ritardi nel completarli. La disponibilità tempestiva di questi riassunti è importante perché i ritardi sono stati collegati a tassi più elevati di reingressi in ospedale. Infatti, non avere un riassunto di dimissione può aumentare significativamente le possibilità che un paziente venga riammesso poco dopo la dimissione. Le organizzazioni sanitarie riconoscono che una scarsa sintesi e comunicazione dopo che un paziente lascia il ED possono portare a problemi.
Tecnologia in Sanità: Modelli Linguistici Avanzati
Recentemente, tecnologie avanzate conosciute come modelli linguistici di grandi dimensioni (LLM), come ChatGPT, sono state introdotte nel campo sanitario. Questi modelli utilizzano l'elaborazione del linguaggio naturale (NLP) per migliorare la qualità e l'efficienza della documentazione medica. Gli LLM possono riassumere le informazioni in modo efficace, una funzione che potrebbe essere molto utile nella generazione di riassunti di dimissione. Sebbene alcuni studi abbiano esaminato quanto bene gli LLM riassumono la letteratura medica e le conversazioni, meno attenzione è stata data alla loro capacità di creare riassunti dalla visita in ospedale di un paziente.
Con l'aumentare della diffusione degli LLM nella sanità, è cruciale valutare quanto siano accurati nel produrre questi documenti di dimissione importanti. Questo studio analizza le prestazioni di due LLM avanzati, GPT-4 e GPT-3.5-turbo, nella generazione di riassunti di dimissione dal ED. Valuta anche i tipi di errori che potrebbero apparire in questi riassunti.
Panoramica dello Studio
La ricerca ha utilizzato dati clinici de-identificati dal UCSF Information Commons, il che significa che tutte le informazioni personali sui pazienti sono state rimosse per motivi di privacy. Il Comitato di Revisione Istituzionale dell'UCSF ha deciso che questo uso di dati de-identificati non richiedeva ulteriori approvazioni. Lo studio ha seguito un piano specifico per garantire risultati accurati.
I ricercatori hanno cercato tutti i pazienti adulti dimessi dal ED dell'UCSF tra il 2012 e il 2023 e che avevano una nota del clinico disponibile. Hanno fatto in modo di selezionare la nota più vecchia per ogni visita, poiché le note più recenti contenevano spesso informazioni non verificate. Hanno poi controllato la struttura di queste note per confermare che erano presenti sezioni essenziali come "Motivo di Consultazione" e "Esame Fisico". Le note troppo lunghe sono state escluse per garantire che i modelli potessero elaborare le informazioni in modo efficace.
Successivamente, i ricercatori hanno selezionato casualmente 100 note per un'ulteriore analisi. Hanno utilizzato un sistema sicuro per far sì che sia GPT-3.5-turbo che GPT-4 creassero riassunti di dimissione basati sulle note del clinico. È stato utilizzato un prompt specifico per istruirli su come creare questi riassunti.
Valutazione dei Riassunti
Due revisori indipendenti, esperti in Medicina d'Urgenza, hanno valutato i riassunti generati da entrambi i modelli. Hanno cercato tre principali tipologie di errori: inesattezze (informazioni false), Allucinazioni (informazioni inventate dal modello) e omissioni (dettagli importanti mancanti). I revisori hanno anche fornito brevi spiegazioni sugli errori riscontrati.
Gli errori sono stati categorizzati in base agli elementi della visita del paziente, tra cui il motivo di consultazione, la storia medica e i risultati degli esami. Inoltre, i ricercatori hanno riportato quanti errori sono comparsi in diverse categorie e sezioni dei riassunti prodotti da ciascun modello.
Sono state eseguite analisi statistiche per confrontare i risultati di GPT-3.5-turbo e GPT-4. I ricercatori hanno esaminato il conteggio delle parole delle note originali e dei riassunti prodotti dai modelli, oltre ai punteggi di leggibilità per determinare quanto fossero facili da comprendere.
Risultati Chiave
In totale, sono stati trovati 202,059 accessi al ED idonei con note cliniche. Da questo, sono stati campionati 100 per la sintesi. Le note cliniche originali hanno una media di circa 802 parole. I riassunti creati da GPT-4 erano più brevi, con una media di 235 parole, mentre quelli di GPT-3.5-turbo erano più lunghi, con circa 369 parole. I riassunti di GPT-4 erano anche più facili da leggere e più chiari.
In generale, i riassunti generati da GPT-4 hanno presentato meno errori rispetto a quelli di GPT-3.5-turbo. Circa il 33% dei riassunti di GPT-4 erano privi di errori, mentre solo il 10% dei riassunti di GPT-3.5-turbo aveva la stessa qualità. I riassunti di GPT-4 contenevano inesattezze solo nel 10% dei casi, mentre il 36% dei riassunti di GPT-3.5-turbo aveva inesattezze. Le allucinazioni erano presenti nel 42% dei riassunti di GPT-4, ma un numero maggiore, il 64%, dei riassunti di GPT-3.5-turbo conteneva questi errori. Tendenze simili sono state osservate anche per le omissioni di informazioni importanti.
Esaminando i tipi di errori, le inesattezze si sono verificate principalmente nella sezione piano dei riassunti. Il modello GPT-4 ha migliorato nella registrazione della storia medica, commettendo molti meno errori rispetto a GPT-3.5-turbo. Entrambi i modelli hanno avuto problemi con le allucinazioni, in particolare riguardo alle istruzioni di follow-up e alle informazioni rimosse per motivi di privacy. Dettagli mancanti da esami fisici e risultati di laboratorio erano comuni omissioni nei riassunti.
Implicazioni dello Studio
I risultati indicano che mentre gli LLM sono capaci di generare riassunti di dimissione ragionevolmente accurati, fanno ancora errori significativi e perdono informazioni importanti. Comprendere dove tendono a verificarsi questi errori è cruciale per i medici che dovranno riesaminare e correggere questi riassunti. Affrontare dove avvengono questi errori potrebbe aiutare a garantire la sicurezza dei pazienti e a evitare di trascurare dettagli critici nella cura dei pazienti.
Sebbene solo un terzo dei riassunti di GPT-4 fosse impeccabile, esaminare i tipi specifici di errori ha mostrato che molte allucinazioni potrebbero essere attribuibili a informazioni redatte per motivi di privacy. Se si escludono questi tipi di errori, la proporzione di riassunti privi di errori aumenta significativamente.
Lo studio ha anche notato che diversi revisori avevano livelli variabili di accordo su cosa costituisse informazioni accurate rispetto a quelle omesse. Questo riflette la natura soggettiva del giudizio clinico, dove includere dettagli specifici può dipendere da preferenze individuali.
Limitazioni dello Studio
Questo studio ha diverse limitazioni da considerare. Innanzitutto, è stata riassunta solo la nota originale del clinico, che potrebbe non contenere tutte le informazioni pertinenti al paziente, come i dettagli provenienti da specialisti. Le ricerche future dovrebbero considerare quanto bene gli LLM possano riassumere più documenti per informazioni più complete.
Inoltre, sono stati analizzati solo 100 incontri al ED, che potrebbero non rappresentare tutte le demografie dei pazienti. Il campione includeva prevalentemente pazienti di alcune etnie, quindi c'è bisogno di una rappresentanza più ampia in studi futuri.
Le prestazioni degli LLM potrebbero anche migliorare nel tempo man mano che la tecnologia continua a svilupparsi. Non è stata condotta una comparazione diretta tra i riassunti generati dagli LLM e quelli generati realmente dai clinici, lasciando aperta la possibilità che i riassunti umani possano anch'essi contenere errori.
Conclusione
Questo studio evidenzia il potenziale dei modelli linguistici di grandi dimensioni per generare riassunti di dimissione clinica che sono generalmente accurati, anche se possono avere difficoltà con le allucinazioni e l'omissione di informazioni rilevanti. Sapere dove tendono a verificarsi questi errori è molto importante per i clinici che saranno responsabili di controllare questi riassunti prima che siano finalizzati. In generale, mentre gli LLM mostrano promesse, è necessaria una valutazione e una revisione approfondite per salvaguardare la cura dei pazienti e mantenere una documentazione di qualità negli ambienti sanitari.
Titolo: Evaluating Large Language Models for Drafting Emergency Department Discharge Summaries
Estratto: ImportanceLarge language models (LLMs) possess a range of capabilities which may be applied to the clinical domain, including text summarization. As ambient artificial intelligence scribes and other LLM-based tools begin to be deployed within healthcare settings, rigorous evaluations of the accuracy of these technologies are urgently needed. ObjectiveTo investigate the performance of GPT-4 and GPT-3.5-turbo in generating Emergency Department (ED) discharge summaries and evaluate the prevalence and type of errors across each section of the discharge summary. DesignCross-sectional study. SettingUniversity of California, San Francisco ED. ParticipantsWe identified all adult ED visits from 2012 to 2023 with an ED clinician note. We randomly selected a sample of 100 ED visits for GPT-summarization. ExposureWe investigate the potential of two state-of-the-art LLMs, GPT-4 and GPT-3.5-turbo, to summarize the full ED clinician note into a discharge summary. Main Outcomes and MeasuresGPT-3.5-turbo and GPT-4-generated discharge summaries were evaluated by two independent Emergency Medicine physician reviewers across three evaluation criteria: 1) Inaccuracy of GPT-summarized information; 2) Hallucination of information; 3) Omission of relevant clinical information. On identifying each error, reviewers were additionally asked to provide a brief explanation for their reasoning, which was manually classified into subgroups of errors. ResultsFrom 202,059 eligible ED visits, we randomly sampled 100 for GPT-generated summarization and then expert-driven evaluation. In total, 33% of summaries generated by GPT-4 and 10% of those generated by GPT-3.5-turbo were entirely error-free across all evaluated domains. Summaries generated by GPT-4 were mostly accurate, with inaccuracies found in only 10% of cases, however, 42% of the summaries exhibited hallucinations and 47% omitted clinically relevant information. Inaccuracies and hallucinations were most commonly found in the Plan sections of GPT-generated summaries, while clinical omissions were concentrated in text describing patients Physical Examination findings or History of Presenting Complaint. Conclusions and RelevanceIn this cross-sectional study of 100 ED encounters, we found that LLMs could generate accurate discharge summaries, but were liable to hallucination and omission of clinically relevant information. A comprehensive understanding of the location and type of errors found in GPT-generated clinical text is important to facilitate clinician review of such content and prevent patient harm.
Autori: Christopher Y.K. Williams, J. Bains, T. Tang, K. Patel, A. N. Lucas, F. Chen, B. Y. Miao, A. J. Butte, A. E. Kornblith
Ultimo aggiornamento: 2024-04-04 00:00:00
Lingua: English
URL di origine: https://www.medrxiv.org/content/10.1101/2024.04.03.24305088
Fonte PDF: https://www.medrxiv.org/content/10.1101/2024.04.03.24305088.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.