Simple Science

Scienza all'avanguardia spiegata semplicemente

# Scienze della salute# Informatica sanitaria

L'impatto dei fattori sociali sugli esiti di salute

Esplorare come istruzione, razza e povertà influenzano la salute negli Stati Uniti.

― 8 leggere min


Fattori sociali eFattori sociali edisparità nella salutenegli esiti sanitari.Esaminare il ruolo dei fattori sociali
Indice

Negli Stati Uniti, fattori sociali come istruzione, razza e povertà giocano un ruolo importante nella salute generale. Le ricerche mostrano che questi fattori sono legati a un gran numero di morti ogni anno. Nel 2000, uno studio ha trovato che circa 245.000 morti erano collegate a bassi livelli di istruzione, 176.000 a esperienze di razzismo e molti altri a mancanza di supporto sociale e problemi economici. Questi numeri sono comparabili a quelli causati da malattie gravi.

I Determinanti sociali della salute (SDoH) si riferiscono alle condizioni in cui le persone nascono, vivono, lavorano e invecchiano. Queste condizioni possono creare disuguaglianze nei risultati di salute. Gli studi hanno dimostrato che chi ha redditi più bassi è più probabile che muoia prematuramente, mentre i bambini di famiglie con bassa istruzione tendono a vivere in ambienti malsani. La bassa istruzione è anche collegata a tassi più alti di fumo e a speranze di vita più brevi.

Evidenze recenti suggeriscono che migliorare la salute e ottenere equità nei risultati richiede di affrontare questi fattori sociali. Negli ultimi dieci anni, gli ospedali negli Stati Uniti hanno iniziato a usare cartelle cliniche elettroniche (EHR) che raccolgono grandi quantità di dati sui pazienti. Questi dati possono supportare vari sforzi di ricerca per comprendere e migliorare la salute.

Anche se utili, la maggior parte degli studi non utilizza tutti i dati disponibili nelle EHR, specialmente i dati non strutturati presenti nelle Note cliniche. Alcuni fattori sociali, come razza e genere, sono registrati in modi strutturati nelle EHR, ma molti dettagli importanti si trovano in forme narrative all'interno delle note cliniche, scritte dai fornitori di assistenza sanitaria. Queste note possono contenere informazioni preziose sulla vita e le circostanze dei pazienti, come il loro stato finanziario e le reti sociali.

I ricercatori hanno iniziato a utilizzare tecniche di Elaborazione del linguaggio naturale (NLP) per estrarre fattori sociali da queste note cliniche. Questo può essere fatto in vari modi, dai metodi semplici basati su regole a tecniche di deep learning più complesse. Tuttavia, gran parte di questo lavoro si concentra spesso su un piccolo insieme di fattori sociali e tende a svolgersi all'interno di una singola istituzione sanitaria, limitandone l'applicazione più ampia.

Una domanda importante è: quali fattori sociali non sono documentati sufficientemente? Questo può variare a seconda della specialità medica. Ad esempio, il supporto sociale e le esperienze di trauma infantile potrebbero essere meglio documentati nei casi di salute mentale rispetto ad altre aree come la cardiologia. Per comprendere meglio questo aspetto, i ricercatori hanno raccolto dati da più ospedali e diversi tipi di note cliniche.

Comprendere le Differenze nella Documentazione

La documentazione dei fattori sociali nelle note cliniche può variare notevolmente tra diversi sistemi sanitari e fornitori individuali. Questa variabilità può influenzare il modo in cui alcuni determinanti sociali vengono registrati. Studiando vari tipi di note in diversi contesti, i ricercatori mirano a identificare le lacune nella documentazione dei fattori sociali, in particolare quelli meno frequentemente annotati.

Ad esempio, nei contesti di salute mentale, fattori sociali come le esperienze infantili e il supporto sociale possono essere più comuni nelle note cliniche rispetto ad altre specialità. Pertanto, i ricercatori hanno condotto studi in diverse strutture per vedere quanto spesso questi fattori sociali appaiono nelle note cliniche e se possono sviluppare modelli che riconoscano questi fattori in modo più efficace.

I ricercatori hanno esaminato note di quattro diversi ospedali, coprendo sia le strutture per pazienti ricoverati che quelle ambulatoriali. Hanno raccolto vari tipi di note cliniche, comprese le valutazioni psicosociali e le note del lavoro sociale. Questo secondo passo di raccolta dati ha incluso anche fonti come banche dati disponibili pubblicamente.

Creazione di Dataset annotati

Per facilitare lo studio, i ricercatori hanno creato dataset annotati contenenti note cliniche. Questi dataset sono stati etichettati con cura per includere fattori sociali basati sui modelli notati durante l'analisi iniziale. Ogni nota è stata esaminata e specifici fattori sociali sono stati evidenziati, come condizioni di vita, problemi finanziari e background educativo.

Il processo di annotazione ha comportato più turni di formazione per gli annotatori, assicurandosi che comprendessero come classificare correttamente i fattori sociali. Disaccordi nell'etichettatura sono stati risolti attraverso discussione e consultazione con un esperto medico. Dopo la formazione, sono stati creati un totale di quattro dataset, ciascuno composto da una varietà di note cliniche dettaglianti gli SDoH.

I ricercatori hanno notato che alcuni fattori sociali apparivano molto meno frequentemente di altri. Ad esempio, questioni come il livello di istruzione e lo stress finanziario erano ben documentate, mentre altre, in particolare quelle relative ad abusi e traumi, erano meno comunemente registrate. I ricercatori puntavano a mantenere tutti i fattori nei dataset per rappresentare accuratamente la complessità dei determinanti sociali negli ambienti sanitari.

Sviluppo e Test di Modelli per l'Estrazione degli SDoH

I ricercatori si sono poi concentrati a sperimentare diversi modelli per estrarre fattori sociali dalle note cliniche. Questo includeva metodi di machine learning tradizionali e nuovi modelli di deep learning, inclusi un grande modello di linguaggio (LLM). Ogni modello è stato testato per la sua capacità di riconoscere e classificare i determinanti sociali nelle note cliniche.

Sono stati impiegati quattro diversi modelli di machine learning:

  1. XGBoost: Un potente modello per compiti di classificazione, in grado di gestire dati complessi.
  2. TextCNN: Un modello che utilizza reti neurali convoluzionali per analizzare dati testuali.
  3. Sentence-BERT: Un modello che cattura il significato delle frasi e consente compiti di classificazione efficaci.
  4. LLaMA: Un grande modello di linguaggio noto per la sua capacità di comprendere il contesto e il linguaggio in modo efficace.

Ogni modello è stato valutato per le sue prestazioni nell'identificare fattori sociali nelle note cliniche, considerando metriche come precisione, richiamo e efficacia complessiva.

L'Importanza della Generalizzabilità

Un'area di grande interesse per i ricercatori era quanto bene i modelli si sarebbero comportati se applicati a dataset diversi. Sebbene molti modelli funzionino bene quando addestrati e testati sugli stessi dati, l'applicazione nel mondo reale coinvolge spesso l'uso di dati provenienti da varie fonti. Questo solleva la questione di quanto siano generalizzabili questi modelli in diversi contesti sanitari.

I ricercatori hanno diviso i loro dati in set di addestramento e test e hanno valutato come ciascun modello si comportasse quando addestrato su un dataset e testato su un altro. Hanno scoperto che il modello LLaMA superava costantemente gli altri in termini di portabilità e flessibilità nel passare tra diversi dataset, dimostrando la sua forte capacità di generalizzare.

Approfondimenti sulle Prestazioni del Modello

Durante la valutazione, era chiaro che, mentre i modelli si comportavano relativamente bene all'interno dello stesso dataset, le prestazioni differivano quando si passava tra dataset. In particolare, il modello LLaMA ha mostrato risultati promettenti, spesso superando altri modelli nell'estrarre informazioni sociali preziose da note cliniche diverse.

Tuttavia, è stato anche notato che le prestazioni di altri modelli diminuivano quando testati in contesti diversi. Questo ha indicato la necessità di ulteriori ricerche e sviluppo in quest'area. Comprendere gli impatti di diversi stili di documentazione, popolazioni di pazienti e ambienti sanitari è cruciale per sviluppare modelli ampiamente applicabili.

Affrontare l'Imbalance di Classe e la Variabilità delle Prestazioni

Un'altra sfida che i ricercatori hanno affrontato è stata il problema dell'imbalance di classe. In molti dataset del mondo reale, alcuni fattori sociali potrebbero non essere ben rappresentati, portando a difficoltà nell'addestrare modelli efficaci. I ricercatori hanno scelto di mantenere tutti i fattori sociali documentati nella loro analisi, permettendo loro di osservare quanto bene i modelli potessero funzionare anche con distribuzioni di dataset sbilanciate.

L'addestramento di modelli su dataset combinati ha mostrato miglioramenti, suggerendo che unire varie fonti di dati può migliorare le prestazioni complessive del modello. La variazione nella distribuzione dei fattori sociali tra diversi ospedali e tipi di note cliniche ha evidenziato la complessità del problema.

Considerazioni Future e Potenziali Miglioramenti

Sebbene i ricercatori siano stati incoraggiati dai risultati, riconoscono che c'è ancora molto lavoro da fare. Migliorare la capacità dei modelli di generalizzare e identificare ulteriori fattori sociali è essenziale per il futuro di questa ricerca. Inoltre, sviluppare pratiche di annotazione migliori per catturare informazioni sfumate dalle note cliniche potrebbe ulteriormente migliorare l'accuratezza dei modelli.

Questi risultati hanno implicazioni oltre la ricerca; sottolineano il potenziale di utilizzare l'NLP e il machine learning per colmare le lacune nei dati sulla salute che potrebbero portare a migliori piani di trattamento e politiche sanitarie. Mentre i determinanti sociali continuano a influenzare gli esiti di salute, gli sforzi continui per migliorare la raccolta dei dati e l'addestramento dei modelli saranno vitali per creare una società più sana.

Conclusione

In conclusione, i fattori sociali hanno un effetto profondo sugli esiti di salute negli Stati Uniti. Esplorando e documentando questi fattori, i ricercatori possono aprire la strada al miglioramento dell'equità in salute e al successo complessivo delle interventi sanitari. L'uso di modelli avanzati, in particolare grandi modelli di linguaggio, offre un percorso promettente per estrarre informazioni sociali significative dalle note cliniche, che possono infine portare a una migliore comprensione e affrontare le disparità sanitarie.

attraverso la collaborazione e ulteriori indagini, la comunità di ricerca mira a migliorare la comprensione dei determinanti sociali della salute e a migliorare le pratiche di documentazione nei registri sanitari. La speranza è di sfruttare queste intuizioni per creare un sistema sanitario più equo che riconosca e affronti i fattori sociali che influenzano la salute individuale.

Fonte originale

Titolo: Large Language Models for Social Determinants of Health Information Extraction from Clinical Notes - A Generalizable Approach across Institutions

Estratto: The consistent and persuasive evidence illustrating the influence of social determinants on health has prompted a growing realization throughout the health care sector that enhancing health and health equity will likely depend, at least to some extent, on addressing detrimental social determinants. However, detailed social determinants of health (SDoH) information is often buried within clinical narrative text in electronic health records (EHRs), necessitating natural language processing (NLP) methods to automatically extract these details. Most current NLP efforts for SDoH extraction have been limited, investigating on limited types of SDoH elements, deriving data from a single institution, focusing on specific patient cohorts or note types, with reduced focus on generalizability. This study aims to address these issues by creating cross-institutional corpora spanning different note types and healthcare systems, and developing and evaluating the generalizability of classification models, including novel large language models (LLMs), for detecting SDoH factors from diverse types of notes from four institutions: Harris County Psychiatric Center, University of Texas Physician Practice, Beth Israel Deaconess Medical Center, and Mayo Clinic. Four corpora of deidentified clinical notes were annotated with 21 SDoH factors at two levels: level 1 with SDoH factor types only and level 2 with SDoH factors along with associated values. Three traditional classification algorithms (XGBoost, TextCNN, Sentence BERT) and an instruction tuned LLM-based approach (LLaMA) were developed to identify multiple SDoH factors. Substantial variation was noted in SDoH documentation practices and label distributions based on patient cohorts, note types, and hospitals. The LLM achieved top performance with micro-averaged F1 scores over 0.9 on level 1 annotated corpora and an F1 over 0.84 on level 2 annotated corpora. While models performed well when trained and tested on individual datasets, cross-dataset generalization highlighted remaining obstacles. To foster collaboration, access to partial annotated corpora and models trained by merging all annotated datasets will be made available on the PhysioNet repository.

Autori: Vipina K Keloth, S. Selek, Q. Chen, C. Gilman, S. Fu, Y. Dang, X. Chen, X. Hu, Y. Zhou, H. He, J. W. Fan, K. Wang, C. Brandt, C. Tao, H. Liu, H. Xu

Ultimo aggiornamento: 2024-05-22 00:00:00

Lingua: English

URL di origine: https://www.medrxiv.org/content/10.1101/2024.05.21.24307726

Fonte PDF: https://www.medrxiv.org/content/10.1101/2024.05.21.24307726.full.pdf

Licenza: https://creativecommons.org/licenses/by-nc/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili