Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio# Intelligenza artificiale# Apprendimento automatico

Valutare i modelli di linguaggio in sanità: un nuovo dataset

Un nuovo set di dati aiuta a valutare i modelli linguistici per le applicazioni sanitarie.

― 7 leggere min


Modelli di linguaggioModelli di linguaggionella valutazionesanitariaclinici.Nuovo dataset valuta l'IA in contesti
Indice

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato di saper seguire Istruzioni in linguaggio naturale con un livello di abilità davvero impressionante. Questa capacità è fondamentale nella sanità, dove c'è un sacco di burocrazia e gestione dei dati. Gli LLM potrebbero aiutare a ridurre questo carico di lavoro e migliorare la qualità delle cure. Tuttavia, testare questi modelli in situazioni sanitarie reali non è facile. I dataset attuali per valutare gli LLM spesso non catturano la complessità delle informazioni con cui i medici devono confrontarsi ogni giorno.

La Sfida

I dataset attuali per il question-answering delle cartelle cliniche elettroniche (EHR) non mostrano efficacemente i bisogni complicati e i carichi di lavoro affrontati dai Clinici. Per questa limitazione, abbiamo creato un nuovo dataset che include una varietà di istruzioni da parte dei medici su come usare i dati EHR. Questo dataset è stato creato specificamente per valutare le performance degli LLM nella sanità.

Il Dataset

Il nostro nuovo dataset di riferimento contiene una gamma di istruzioni in linguaggio naturale per i dati EHR. Questo dataset è creato da professionisti di varie specialità mediche, offrendo una portata ampia. Ogni istruzione è abbinata a risposte scritte dai clinici e a EHR che offrono esempi reali su come gestire diverse situazioni sanitarie.

Per valutare quanto bene gli LLM possono rispondere a queste istruzioni, abbiamo chiesto ai clinici di classificare l'accuratezza e la qualità delle risposte fornite da sei diversi LLM di dominio generale. I risultati hanno mostrato tassi di errore significativi tra i modelli, suggerendo che c'è ancora molta strada da fare prima che gli LLM possano soddisfare le aspettative in un contesto clinico.

Importanza del Contesto

Gli LLM possono funzionare bene se hanno il contesto giusto. Ad esempio, l'accuratezza di un modello è diminuita dell'8,3% quando la lunghezza del contesto è stata ridotta. Questo evidenzia quanto possa essere importante avere sufficiente informazione per avere risposte migliori. Nella sanità, il contesto è cruciale perché può cambiare l'interpretazione dei dati.

Compiti per i Clinici

I clinici trascorrono gran parte della loro giornata in compiti che potrebbero essere semplificati grazie all'uso degli LLM. Attività come riassumere la storia clinica di un paziente, generare diagnosi dai risultati di laboratorio o rivedere appunti clinici richiedono molto tempo ed energia. Utilizzando gli LLM, questi compiti potrebbero essere snelliti, permettendo ai dottori di passare più tempo con i loro pazienti e meno sulla documentazione.

Limitazioni Attuali

Nonostante l'entusiasmo per il potenziale degli LLM di trasformare la sanità, finora, le valutazioni non hanno rappresentato accuratamente la varietà di compiti con cui i medici si confrontano con i dati EHR. Crediamo che, con i recenti avanzamenti nelle capacità di seguire istruzioni, gli LLM possano alleviare alcuni dei carichi che i professionisti della salute affrontano.

Tuttavia, creare un dataset che rifletta realmente le esigenze dei clinici è una sfida. Queste difficoltà includono la raccolta di una vasta gamma di domande da clinici praticanti che possono essere abbinate a EHR di strutture ospedaliere e ambulatoriali. Inoltre, i dati devono includere sia informazioni strutturate che non strutturate per aiutare realmente gli LLM a comprendere le esigenze reali dei clinici.

Contributi

In risposta a queste sfide, presentiamo tre principali contributi:

  1. Creazione del Dataset: Introduciamo un dataset di istruzioni create da clinici di varie specialità. Per molte delle istruzioni, includiamo risposte di riferimento generate dai clinici e EHR associati per contestualizzare i suggerimenti.

  2. Abbinamento Istruzioni-EHR: Dettagliamo un metodo per abbinare efficacemente le istruzioni dei clinici con gli EHR rilevanti, aumentando l'efficienza del processo di creazione del dataset.

  3. Valutazione Automatica: Valutiamo come si comportano gli LLM utilizzando metriche che collegano le classifiche dei clinici alle valutazioni di generazione del linguaggio naturale automatizzate.

Necessità di Dati Migliori

Il volume dei dati dei pazienti sta crescendo rapidamente, con un aumento della complessità. Affrontare questa crescita attraverso LLM robusti che possano gestire i dati EHR efficacemente può ridurre il carico sui clinici. I dataset attuali spesso si concentrano troppo su domande specifiche o semplificano i compiti al punto da non rappresentare realmente le sfumature delle esigenze sanitarie.

Fornendo un dataset più allineato con i compiti clinici del mondo reale, possiamo creare strumenti migliori per gli LLM da utilizzare con i dati EHR. Questo potrebbe contribuire a migliorare sia i flussi di lavoro dei clinici che i risultati dei pazienti.

Curazione del Dataset

Creare il nostro dataset ha richiesto un attento processo di curazione. Abbiamo raccolto istruzioni da medici nel nostro centro medico e fornito una piattaforma per loro per inviare richieste uniche. Ogni istruzione doveva essere accompagnata da contesto sulla situazione clinica a cui si applicava.

Successivamente, abbiamo abbinato queste istruzioni a EHR rilevanti utilizzando un metodo di recupero che ha avuto successo circa il 74% delle volte. Ciò significa che il nostro metodo è riuscito a trovare EHR pertinenti alle istruzioni specifiche per la maggior parte del tempo, migliorando in modo significativo la qualità dei dati che volevamo raccogliere.

Raccolta delle Istruzioni

Per il processo di raccolta delle istruzioni, abbiamo utilizzato un modulo online. I clinici sono stati invitati a sviluppare istruzioni che vorrebbero che uno strumento AI eseguisse compiti di supporto nella loro pratica quotidiana. Un elemento chiave era che le istruzioni dovevano essere chiare e rilevanti per la popolazione generale di pazienti.

Valutazione delle Risposte

Una volta che avevamo le istruzioni abbinate agli EHR, è stato chiesto ai clinici di generare risposte basate sui dati forniti. Dovevano assicurarsi che l'EHR contenesse tutte le informazioni rilevanti necessarie per affrontare l'istruzione. Questa valutazione richiedeva processi di revisione approfonditi e una rigorosa competenza da parte dei clinici coinvolti.

Datasets e Performance

Il nostro dataset include un numero sostanziale di istruzioni generate dai clinici distribuite su più specialità mediche, riflettendo una ricca varietà di scenari clinici. La performance degli LLM è stata valutata in base a quanto accuratamente potevano rispondere alle istruzioni utilizzando le informazioni contestuali fornite all'interno degli EHR.

Abbiamo scoperto differenze significative tra i modelli. In particolare, i modelli più avanzati come GPT-4 hanno performato significativamente meglio rispetto a opzioni più piccole e open source. Il tasso di accuratezza complessivo delle risposte variava ampiamente, dimostrando che non tutti gli LLM sono in grado di gestire i compiti clinici allo stesso modo.

Analisi della Performance

Quando si tratta della reale performance degli LLM, i risultati rivelano che l'uso di modelli avanzati porta spesso a una migliore chiarezza e accuratezza nelle risposte. Ad esempio, gli LLM con lunghezze di contesto maggiori hanno avuto performance migliori rispetto a quelli con lunghezze più corte. Questo rafforza l'idea che il contesto importa, specialmente in campi complessi come la sanità.

Metriche di Valutazione Automatica

In aggiunta alle valutazioni manuali, abbiamo anche esplorato metriche automatizzate per valutare le performance degli LLM. Queste metriche possono aiutare a smistare rapidamente grandi volumi di risposte offrendo un punto di riferimento rispetto alle valutazioni dei clinici. I metodi automatizzati hanno mostrato correlate promettenti con le classifiche umane, indicando che potrebbero essere uno strumento utile per le valutazioni future.

Sicurezza e Conformità

Nel gestire dati sensibili dei pazienti, la sicurezza rigorosa e la conformità con le normative sono state cruciali. Il progetto ha rispettato i protocolli della commissione per la revisione istituzionale e ha garantito che i dati fossero de-identificati per proteggere la privacy dei pazienti. I ricercatori coinvolti hanno seguito corsi di formazione sulle pratiche di privacy prima di lavorare con qualsiasi dato.

Conclusione

In sintesi, il nostro lavoro presenta una via da seguire per valutare e utilizzare gli LLM nei contesti sanitari. Abbiamo gettato le basi creando un dataset su misura per i reali compiti che i clinici affrontano quando lavorano con gli EHR.

Colmando il divario tra le capacità degli LLM e le realtà sanitarie, possiamo iniziare a sbloccare il potenziale di questi modelli per snellire i compiti amministrativi e migliorare le cure ai pazienti. Ulteriori sforzi continueranno a raffinare gli strumenti disponibili, assicurando che siano affidabili e utili per la comunità medica.

Il passaggio verso l'integrazione di modelli linguistici avanzati nei contesti clinici richiede una continua collaborazione ed esplorazione delle migliori pratiche. Con miglioramenti continui nella qualità dei dati, nello sviluppo dei metodi e nella tecnologia, siamo ottimisti riguardo al futuro dell'IA nella sanità.

Fonte originale

Titolo: MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records

Estratto: The ability of large language models (LLMs) to follow natural language instructions with human-level fluency suggests many opportunities in healthcare to reduce administrative burden and improve quality of care. However, evaluating LLMs on realistic text generation tasks for healthcare remains challenging. Existing question answering datasets for electronic health record (EHR) data fail to capture the complexity of information needs and documentation burdens experienced by clinicians. To address these challenges, we introduce MedAlign, a benchmark dataset of 983 natural language instructions for EHR data. MedAlign is curated by 15 clinicians (7 specialities), includes clinician-written reference responses for 303 instructions, and provides 276 longitudinal EHRs for grounding instruction-response pairs. We used MedAlign to evaluate 6 general domain LLMs, having clinicians rank the accuracy and quality of each LLM response. We found high error rates, ranging from 35% (GPT-4) to 68% (MPT-7B-Instruct), and an 8.3% drop in accuracy moving from 32k to 2k context lengths for GPT-4. Finally, we report correlations between clinician rankings and automated natural language generation metrics as a way to rank LLMs without human review. We make MedAlign available under a research data use agreement to enable LLM evaluations on tasks aligned with clinician needs and preferences.

Autori: Scott L. Fleming, Alejandro Lozano, William J. Haberkorn, Jenelle A. Jindal, Eduardo P. Reis, Rahul Thapa, Louis Blankemeier, Julian Z. Genkins, Ethan Steinberg, Ashwin Nayak, Birju S. Patel, Chia-Chun Chiang, Alison Callahan, Zepeng Huo, Sergios Gatidis, Scott J. Adams, Oluseyi Fayanju, Shreya J. Shah, Thomas Savage, Ethan Goh, Akshay S. Chaudhari, Nima Aghaeepour, Christopher Sharp, Michael A. Pfeffer, Percy Liang, Jonathan H. Chen, Keith E. Morse, Emma P. Brunskill, Jason A. Fries, Nigam H. Shah

Ultimo aggiornamento: 2023-12-24 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2308.14089

Fonte PDF: https://arxiv.org/pdf/2308.14089

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili