Usare l'IA per estrarre i determinanti sociali dalle cartelle cliniche
Questo studio valuta la capacità di GPT-4 di estrarre fattori sociali di salute dai record.
― 6 leggere min
Indice
- L'importanza di estrarre i determinanti sociali
- Uso di modelli di linguaggio grandi per l'estrazione
- I metodi che abbiamo usato
- Valutazione delle prestazioni
- Analisi degli errori e delle lacune nelle prestazioni
- Il ruolo delle strategie di prompting
- Direzioni future per la ricerca
- Considerazioni etiche
- Conclusione
- Fonte originale
- Link di riferimento
I Determinanti sociali della salute sono le condizioni in cui le persone vivono e lavorano che influenzano la loro salute e qualità della vita. Questi fattori includono cose come reddito, istruzione e condizioni di vita. Capire questi fattori è importante per i medici e i professionisti della salute perché li aiuta a prendere decisioni migliori per la cura dei pazienti. In molti casi, questi fattori sociali vengono registrati nelle Cartelle cliniche elettroniche in un modo che può essere difficile da leggere, spesso come testo non strutturato.
La sfida che affrontiamo è che per usare queste informazioni in modo efficace, dobbiamo trovare un modo per estrarre automaticamente i dettagli rilevanti. Questo è importante per supportare decisioni sanitarie migliori.
L'importanza di estrarre i determinanti sociali
I ricercatori stanno studiando modi per estrarre automaticamente i determinanti sociali da cartelle cliniche utilizzando varie tecniche. Tradizionalmente, questo ha comportato l'uso di regole o modelli basati su esempi di dati passati. Con i recenti progressi nell'intelligenza artificiale, specialmente nei modelli di linguaggio grandi, ci sono ora nuove possibilità per migliorare questo processo.
Ad esempio, modelli come GPT-4 sono in grado di comprendere e analizzare il testo clinico in modi che possono eguagliare o addirittura superare le Prestazioni umane. Questi modelli sono stati addestrati su grandi quantità di dati e sono stati perfezionati per vari compiti, compresa l'estrazione di informazioni importanti dai documenti sanitari.
Uso di modelli di linguaggio grandi per l'estrazione
Nel nostro lavoro, ci siamo concentrati sull'uso di GPT-4 per estrarre i determinanti sociali della salute da un dataset specifico chiamato Social History Annotation Corpus (SHAC). Questo dataset contiene annotazioni de-identificate da cartelle cliniche, concentrandosi specificamente su informazioni sulla storia sociale come uso di sostanze, stato occupazionale e condizioni abitative.
Abbiamo valutato quanto bene GPT-4 poteva estrarre queste informazioni utilizzando due metodi diversi: formato standoff e annotazioni inline. Il formato standoff implica la separazione del testo dalle annotazioni, mentre le annotazioni inline comportano l'inserimento delle annotazioni direttamente nel testo.
I metodi che abbiamo usato
Per valutare le prestazioni di GPT-4, abbiamo confrontato i suoi risultati con un modello supervisionato ben performante che era stato specificamente addestrato per questo compito di estrazione.
Nei nostri esperimenti, abbiamo iniziato impostando dei prompt che guidassero GPT-4 su ciò che volevamo che facesse. Il primo passo ha coinvolto la definizione chiara del ruolo del modello e la fornitura di linee guida su come annotare il testo. Dopo di che, abbiamo campionato annotazioni dal dataset e abbiamo esaminato quanto efficacemente GPT-4 potesse identificare e classificare i rilevanti determinanti sociali.
Utilizzando il corpus SHAC, che è strutturato e annotato, potevamo misurare quanto bene GPT-4 si comportasse nell'estrazione delle informazioni necessarie.
Valutazione delle prestazioni
I nostri criteri di valutazione sono stati progettati per aiutarci a determinare quanto fosse accurato il modello nell'individuare i determinanti sociali della salute. Abbiamo esaminato se il modello potesse identificare trigger e argomenti nel testo. Un trigger è il termine principale che descrive il determinante sociale, mentre gli argomenti danno contesto a quel trigger, come il suo stato o tipo.
Abbiamo usato diversi livelli di valutazione. I criteri più rigorosi si concentravano su corrispondenze esatte, mentre i criteri più permissivi permettevano una certa flessibilità in ciò che costituiva una risposta corretta.
Nei nostri risultati, abbiamo scoperto che, mentre GPT-4 era in grado di funzionare ragionevolmente bene, era comunque inferiore rispetto ai metodi di apprendimento supervisionato più tradizionali. Le metriche indicavano che il modello supervisionato fine-tuned era superiore, raggiungendo punteggi F1 più alti in generale.
Analisi degli errori e delle lacune nelle prestazioni
Esaminando gli errori commessi da GPT-4, abbiamo osservato diversi problemi chiave. Anche se riusciva a catturare alcune informazioni rilevanti, ci sono state istanze in cui i trigger identificati non corrispondevano ai trigger attesi dalle annotazioni. Questo ha portato a metriche di prestazione inferiori.
Ad esempio, a volte GPT-4 non riusciva ad associare correttamente gli argomenti ai loro trigger. Questo può accadere se il modello identifica termini rilevanti nel testo ma non li associa accuratamente al contesto giusto. In alcuni casi, il modello ha anche prodotto output che non si adattavano al formato di Annotazione richiesto, portando a ulteriori discrepanze nelle prestazioni.
Inoltre, quando si trattava di estrarre determinati tipi di determinanti sociali, come stato di vita o stato occupazionale, le prestazioni del modello erano meno affidabili. Questo era particolarmente evidente in situazioni in cui più informazioni erano presenti in una singola annotazione, portando a confusione nell'associare le etichette corrette.
Il ruolo delle strategie di prompting
Un aspetto interessante dei nostri esperimenti riguardava le diverse strategie di prompting utilizzate con GPT-4. Abbiamo esplorato sia le annotazioni standoff, in cui le informazioni vengono mantenute separate dal testo principale, sia le annotazioni inline, che incorporano le informazioni all'interno del testo.
I risultati suggerivano che, mentre entrambi i metodi avevano i loro meriti, l'approccio inline era spesso meno efficace. Questo probabilmente a causa di come il modello collegava trigger e argomenti, rendendo più difficile raggiungere i risultati desiderati.
Direzioni future per la ricerca
I risultati di questa ricerca indicano che, mentre GPT-4 mostra potenziale per estrarre i determinanti sociali della salute, c'è ancora margine di miglioramento. Gli studi futuri potrebbero beneficiare dall'esplorare un approccio di apprendimento few-shot piuttosto che basarsi esclusivamente su prompt one-shot. Fornendo più esempi, potremmo aiutare il modello a ottenere prestazioni migliori.
Un altro potenziale ambito di crescita coinvolge il fine-tuning dei modelli utilizzando almeno parte dei dati di addestramento, il che potrebbe migliorare i risultati complessivi. Stili di prompting distintivi, comprese tecniche come il question answering o il ragionamento a catena, potrebbero dare risultati migliori.
Considerazioni etiche
Sebbene l'uso di modelli AI come GPT-4 offra possibilità interessanti per estrarre informazioni dalle cartelle cliniche, ci sono importanti considerazioni etiche da tenere a mente. I dati con cui abbiamo lavorato erano completamente de-identificati per proteggere la privacy. Tuttavia, è essenziale essere consapevoli dei potenziali pregiudizi insiti nei modelli di linguaggio grandi, che potrebbero influenzare le loro prestazioni nell'estrazione dei determinanti sociali.
Prima di applicare questi modelli in contesti reali, i ricercatori devono esaminare attentamente il loro comportamento e garantire che non producano risultati fuorvianti o dannosi.
Conclusione
In conclusione, la nostra esplorazione dell'uso di GPT-4 per estrarre i determinanti sociali della salute ha rivelato sia i suoi punti di forza che le sue debolezze. Anche se offre un approccio innovativo per gestire testo non strutturato, attualmente non raggiunge le prestazioni dei metodi supervisionati consolidati. Tuttavia, le intuizioni ottenute da questa ricerca pongono le basi per futuri miglioramenti e applicazioni nel campo dell'informatica sanitaria. Man mano che continuiamo a perfezionare questi modelli AI e ad esplorare nuove strategie, apriamo la strada per far avanzare la ricerca medica e la cura dei pazienti.
Titolo: Prompt-based Extraction of Social Determinants of Health Using Few-shot Learning
Estratto: Social determinants of health (SDOH) documented in the electronic health record through unstructured text are increasingly being studied to understand how SDOH impacts patient health outcomes. In this work, we utilize the Social History Annotation Corpus (SHAC), a multi-institutional corpus of de-identified social history sections annotated for SDOH, including substance use, employment, and living status information. We explore the automatic extraction of SDOH information with SHAC in both standoff and inline annotation formats using GPT-4 in a one-shot prompting setting. We compare GPT-4 extraction performance with a high-performing supervised approach and perform thorough error analyses. Our prompt-based GPT-4 method achieved an overall 0.652 F1 on the SHAC test set, similar to the 7th best-performing system among all teams in the n2c2 challenge with SHAC.
Autori: Giridhar Kaushik Ramachandran, Yujuan Fu, Bin Han, Kevin Lybarger, Nicholas J Dobbins, Özlem Uzuner, Meliha Yetisgen
Ultimo aggiornamento: 2023-06-12 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2306.07170
Fonte PDF: https://arxiv.org/pdf/2306.07170
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.