Simple Science

Scienza all'avanguardia spiegata semplicemente

# Fisica# Intelligenza artificiale# Calcolo e linguaggio# Fisica medica

Usare modelli linguistici per riassumere i rapporti PET

Uno studio rivela che i modelli di linguaggio possono generare impressioni utili per i rapporti PET.

― 6 leggere min


AI per i riassunti deiAI per i riassunti deireport PETmigliorare i report PET.Esaminando il ruolo dell'IA nel
Indice

I radiologi scrivono rapporti per spiegare i risultati dei test di imaging medico. Questi rapporti sono fondamentali per condividere informazioni importanti sulla condizione di un paziente con altri Medici e il team sanitario. Tra i vari test di imaging, le scansioni PET a corpo intero sono conosciute per essere più lunghe e complesse. In un rapporto PET, la sezione dei risultati elenca molte osservazioni dalla scansione, mentre la sezione dell'Impressione offre un riassunto dei punti più importanti. Dato che gli altri medici fanno molto affidamento sulla sezione dell'impressione per le decisioni di trattamento, deve essere sia accurata che completa. Tuttavia, scrivere queste impressioni può richiedere molto tempo e portare a errori. I modelli di linguaggio di grandi dimensioni (LLM) offrono un nuovo modo per accelerare questo processo scrivendo automaticamente le impressioni basate sui risultati.

Contesto

Sebbene gli LLM siano stati utilizzati per riassumere i risultati di vari test di imaging, non sono stati ampiamente applicati ai rapporti PET a corpo intero. I rapporti PET sono significativamente più lunghi rispetto ad altri test, spesso contenendo da 250 a 500 parole nella sezione dei risultati. Questa lunghezza comporta delle sfide, poiché c'è una maggiore possibilità di perdere informazioni chiave durante la generazione dell'impressione. Inoltre, i singoli medici hanno stili di reporting diversi che devono essere presi in considerazione per risultati più personalizzati. Adattare gli LLM per riassumere i rapporti PET comporta sfide specifiche.

Valutare il successo degli LLM nella produzione di queste impressioni è anche complicato, poiché ci possono essere molte modalità valide per riassumere le stesse informazioni. La Valutazione da parte degli esperti è considerata il modo migliore per valutare la qualità, ma non è pratico per i medici rivedere l'output di ogni modello. Per affrontare questo, studi recenti hanno sviluppato metriche di valutazione per misurare quanto bene questi modelli riassumano i documenti medici. Tuttavia, non è stato determinato quanto siano efficaci queste metriche quando si tratta di impressioni PET e quanto si allineano con le opinioni dei medici.

Lo Studio

L'obiettivo di questo studio era capire se gli LLM addestrati su un gran numero di rapporti PET potessero riassumere accuratamente i risultati e creare impressioni per un uso pratico. I ricercatori hanno addestrato 12 modelli linguistici diversi utilizzando un dataset di rapporti PET e hanno valutato le loro prestazioni utilizzando varie metriche di valutazione. Il modello che ha ottenuto le migliori prestazioni è stato poi testato per la sua capacità di produrre impressioni clinicamente utili.

Raccolta del Dataset

Sono stati utilizzati in totale 37.370 rapporti PET raccolti da un ospedale tra il 2010 e il 2022. Questi rapporti sono stati anonimizzati per proteggere le informazioni sui pazienti. I dati sono stati divisi in gruppi per addestramento, validazione e test. Sono stati raccolti ulteriori 100 rapporti da una fonte diversa per il test esterno.

Preprocessing dei Rapporti

Sono stati testati due tipi di modelli linguistici: modelli encoder-decoder e modelli solo decoder. Il primo set richiedeva una formattazione specifica, dove le prime righe includevano dettagli sulla scansione e l'identità del medico. Il secondo tipo utilizzava un approccio diverso, partendo da un'istruzione che chiedeva al modello di generare l'impressione basata sul rapporto fornito. Le vere impressioni cliniche dai rapporti sono state utilizzate per l'addestramento e la valutazione del modello.

Modelli Linguistici per Rapporti PET

Lo studio si è concentrato sul riassunto, in cui i modelli devono interpretare i risultati invece di ripetere semplicemente parti della sezione dei risultati. I ricercatori hanno addestrato diversi modelli encoder-decoder e modelli solo decoder per vedere quali funzionassero meglio nella generazione di impressioni accurate. I modelli affinati sono stati poi valutati utilizzando varie metriche di valutazione per identificare quello che ha ottenuto le migliori prestazioni per la valutazione esperta.

Valutazione delle Prestazioni

Per determinare quali metriche di valutazione si correlassero meglio con le preferenze dei medici, i ricercatori hanno presentato impressioni generate dai modelli a due medici che le hanno valutate. Le metriche con la correlazione più forte sono state utilizzate per selezionare il modello con le migliori prestazioni.

Nella fase di valutazione esperta, tre medici nucleari hanno esaminato un totale di 24 rapporti, valutando la qualità delle impressioni generate dal modello. Hanno utilizzato criteri specifici per valutare queste impressioni e hanno anche confrontato le impressioni con quelle scritte originali da loro e da altri medici.

Risultati

Lo studio ha scoperto che due metriche, chiamate BARTScore e PEGASUSScore, avevano le correlazioni più alte con le preferenze dei medici. Il modello PEGASUS è stato identificato come il migliore. Quando i medici hanno esaminato le impressioni generate da PEGASUS nel loro stile, un numero significativo è stato considerato clinicamente accettabile, suggerendo che questo modello può produrre risultati utili per applicazioni reali.

Quando i medici hanno valutato le impressioni generate per i loro rapporti, l'89% è stato valutato come clinicamente accettabile. Tuttavia, il punteggio medio di utilità era leggermente inferiore rispetto alle impressioni che avevano scritto originalmente. Questa differenza è stata attribuita ad aree che necessitavano di miglioramento, come correttezza fattuale e chiarezza.

Inoltre, quando si valutano le impressioni di altri medici, i punteggi erano ancora inferiori rispetto ai propri lavori, evidenziando la forte preferenza che i medici hanno per i propri stili di reporting. Nonostante le piccole differenze nei livelli di soddisfazione, l'utilità generale delle impressioni generate da PEGASUS è stata considerata paragonabile a quelle di altri medici.

Sfide Affrontate dal Modello

Sebbene la maggior parte delle impressioni generate da PEGASUS fosse accettabile, sono stati identificati alcuni problemi comuni. Le inesattezze fattuali erano un problema frequente, con casi di interpretazione errata evidenti. Inoltre, il modello a volte produceva diagnosi che erano eccessivamente sicure senza prove sufficienti. Anche le raccomandazioni fornite dal modello potevano essere vaghe, rendendo difficile per i medici utilizzarle nella pratica clinica. Questi problemi sottolineano la necessità di una revisione e modifica approfondita da parte dei medici prima di finalizzare i rapporti.

Limitazioni dello Studio

Sono state identificate diverse limitazioni durante lo studio. Ad esempio, quando si sono affinati alcuni modelli, è stato utilizzato solo un semplice metodo di adattamento al dominio a causa di risorse computazionali limitate. Lo studio ha anche manipolato solo un elemento dell'input per regolare lo stile delle impressioni generate, lasciando esplorati altri metodi potenziali.

Il test esterno ha mostrato un notevole calo nei punteggi di valutazione, suggerendo che le differenze negli stili di reporting tra il gruppo di addestramento interno e i medici esterni hanno influenzato le prestazioni. Infine, poiché il dataset proveniva da un'unica istituzione, future ricerche dovrebbero mirare a coinvolgere più istituzioni per migliorare i risultati.

Conclusione

Questo studio ha esaminato come i modelli di linguaggio di grandi dimensioni possano automatizzare la generazione di impressioni per rapporti PET a corpo intero. I risultati hanno indicato che il modello con le migliori prestazioni, PEGASUS, può creare impressioni personalizzate e clinicamente utili nella maggior parte dei casi. Data la sua prestazione, il modello potrebbe essere integrato in contesti clinici per velocizzare la reportistica PET preparando automaticamente impressioni iniziali basate sui risultati disponibili.

Lo studio riconosce il supporto di varie fonti di finanziamento, chiarendo anche che le opinioni espresse nel lavoro sono degli autori e non riflettono necessariamente le posizioni di alcuna organizzazione sponsor.

In conclusione, mentre rimangono delle sfide, il potenziale degli LLM di migliorare il processo di creazione di rapporti medici è promettente e può portare a una maggiore efficienza nelle strutture sanitarie.

Fonte originale

Titolo: Automatic Personalized Impression Generation for PET Reports Using Large Language Models

Estratto: In this study, we aimed to determine if fine-tuned large language models (LLMs) can generate accurate, personalized impressions for whole-body PET reports. Twelve language models were trained on a corpus of PET reports using the teacher-forcing algorithm, with the report findings as input and the clinical impressions as reference. An extra input token encodes the reading physician's identity, allowing models to learn physician-specific reporting styles. Our corpus comprised 37,370 retrospective PET reports collected from our institution between 2010 and 2022. To identify the best LLM, 30 evaluation metrics were benchmarked against quality scores from two nuclear medicine (NM) physicians, with the most aligned metrics selecting the model for expert evaluation. In a subset of data, model-generated impressions and original clinical impressions were assessed by three NM physicians according to 6 quality dimensions (3-point scale) and an overall utility score (5-point scale). Each physician reviewed 12 of their own reports and 12 reports from other physicians. Bootstrap resampling was used for statistical analysis. Of all evaluation metrics, domain-adapted BARTScore and PEGASUSScore showed the highest Spearman's rank correlations (0.568 and 0.563) with physician preferences. Based on these metrics, the fine-tuned PEGASUS model was selected as the top LLM. When physicians reviewed PEGASUS-generated impressions in their own style, 89% were considered clinically acceptable, with a mean utility score of 4.08 out of 5. Physicians rated these personalized impressions as comparable in overall utility to the impressions dictated by other physicians (4.03, P=0.41). In conclusion, personalized impressions generated by PEGASUS were clinically useful, highlighting its potential to expedite PET reporting.

Autori: Xin Tie, Muheon Shin, Ali Pirasteh, Nevein Ibrahim, Zachary Huemann, Sharon M. Castellino, Kara M. Kelly, John Garrett, Junjie Hu, Steve Y. Cho, Tyler J. Bradshaw

Ultimo aggiornamento: 2023-10-17 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2309.10066

Fonte PDF: https://arxiv.org/pdf/2309.10066

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Link di riferimento

Altro dagli autori

Articoli simili