Migliorare la privacy nella condivisione dei dati sanitari
Nuovo metodo migliora la privacy permettendo un utilizzo migliore dei dati sanitari.
― 7 leggere min
Indice
I dati sanitari includono informazioni personali sulla salute delle persone, la loro storia medica e dettagli demografici. Poiché queste informazioni possono essere sensibili, ci sono regole severe su come possono essere raccolte, utilizzate e condivise. Queste regole mirano a proteggere la Privacy delle persone e a mantenere al sicuro i loro dati. Tuttavia, possono rendere difficile per i ricercatori, soprattutto quelli che lavorano con l'intelligenza artificiale (AI), accedere ai dati sanitari.
Aprire i dati sanitari può offrire alcuni vantaggi utili. Alcuni di questi vantaggi includono la creazione di modelli clinici migliori combinando dati provenienti da vari luoghi e gruppi di persone. Questo può aiutare a rendere i modelli più accurati. Può anche incoraggiare il lavoro di squadra tra i ricercatori e le organizzazioni sanitarie e rendere il processo più trasparente e riproducibile.
Per garantire che la privacy delle persone sia protetta, i registri sanitari possono essere de-identificati o anonimizzati. Questo significa che i dati non possono più essere collegati a individui specifici. Tuttavia, non esiste un modo perfetto per farlo, e c'è sempre il rischio che qualcuno possa scoprire a chi appartengono i dati.
Obiettivo dello Studio
L'obiettivo di questo studio è migliorare la sicurezza dei dati clinici de-identificati e promuovere la condivisione dei dati senza compromettere le prestazioni dei modelli predittivi. Un approccio è utilizzare Statistiche Riassuntive (come media e varianza), che forniscono caratteristiche generali di un gruppo di pazienti senza rivelare informazioni su individui specifici.
Il nostro metodo si chiama "campioni di addestramento aggregati geometricamente" o GATS. Crea nuovi campioni di addestramento mescolando informazioni provenienti da più pazienti. Questi nuovi campioni esistono nello stesso spazio dati dei dati reali dei pazienti, il che aiuta ad addestrare modelli efficaci mantenendo privati i dettagli dei pazienti. GATS può anche essere ulteriormente protetto da metodi aggiuntivi per difendersi da violazioni della privacy.
Per verificare come diversi campioni GATS si confrontano con i dati reali dei pazienti, conduciamo controlli di qualità. Testiamo GATS su due grandi dataset sanitari e uno non sanitario per vedere quanto bene funziona su diversi tipi di dati.
Lavori Correlati
Studi precedenti si sono concentrati su alcuni metodi principali per affrontare la privacy nei dati sanitari. Questi metodi includono la creazione di dataset sintetici, l'uso della privacy differenziale e l'applicazione di addestramento del modello decentralizzato. Tuttavia, noi ci focalizziamo su metodi che promuovono la condivisione dei dati.
Le Reti Neurali Generative Adversarial (GAN) sono state utilizzate per creare Dati Sintetici che rappresentano dati reali. Questo aiuta a proteggere la privacy dei pazienti mentre fornisce un modo più economico per addestrare modelli AI. Tuttavia, ci sono preoccupazioni sulla qualità dei dati sintetici, poiché può essere difficile garantire che riflettano accuratamente la complessità degli scenari del mondo reale.
La privacy differenziale è un altro approccio in cui gli algoritmi sono progettati per proteggere la privacy individuale durante l'addestramento. Tuttavia, aggiungere rumore per proteggere la privacy può rendere i dati meno utili per l'addestramento. Non esiste nemmeno un modo standard per implementare la privacy differenziale, il che può portare a problemi nel suo utilizzo.
Metodo Proposto
Il nostro metodo proposto, GATS, utilizza statistiche riassuntive per creare campioni di addestramento. Ogni campione cattura informazioni chiave dai dati reali senza rivelare i dati di pazienti singoli. Questo metodo ha diversi vantaggi:
- Utilizza informazioni reali, eliminando la necessità di dati sintetici che richiedono risorse estensive per essere creati.
- Non è necessario aggiungere rumore ai dati, il che li mantiene utilizzabili per l'addestramento.
- Protegge la privacy dei pazienti, consentendo alle istituzioni di condividere dati importanti.
Per creare un nuovo campione, selezioniamo casualmente campioni di addestramento da una classe specifica e li mescoliamo attraverso un processo chiamato combinazione convessa. Abbiamo scoperto che quando vengono combinati meno campioni, le prestazioni sono simili a quelle di addestramento su dati reali. Tuttavia, man mano che aumentano i campioni combinati, le prestazioni tendono a diminuire. Per migliorare l'addestramento, generiamo anche campioni di classi miste utilizzando un voto di maggioranza per determinare l'etichetta.
I campioni generati da GATS occupano lo stesso spazio dei dati reali ma non somigliano ai dati di pazienti singoli. Per garantire la privacy, scartiamo i campioni che mostrano troppa somiglianza con i dati reali dei pazienti.
Impostazione Sperimentale
Dimostriamo GATS su due grandi dataset sanitari (CURIAL e eICU) e uno non sanitario (UCI Adult). Il dataset CURIAL include registri sanitari elettronici de-identificati dalle emergenze nel Regno Unito, mentre il dataset eICU contiene dati clinici da ammissioni in terapia intensiva in vari ospedali degli USA. Il dataset UCI Adult si concentra su caratteristiche demografiche e relative all'occupazione per prevedere i livelli di reddito.
Per preparare i dataset, affrontiamo i valori mancanti e standardizziamo le caratteristiche. Misureremo le prestazioni utilizzando l'area sotto la curva operatore caratteristico (AUROC) e l'area sotto la curva di precisione richiamo (AUPRC) per valutare quanto bene funzionano i modelli.
Confronto con Altri Modelli
Confrontiamo i modelli addestrati con GATS con modelli di base addestrati su dataset originali. Valutiamo anche GATS rispetto a metodi all'avanguardia progettati per proteggere la privacy attraverso la generazione di dati sintetici. Questi confronti ci aiutano ad analizzare se GATS offre vantaggi rispetto alle tecniche esistenti.
Risultati
Quando osserviamo le distribuzioni delle caratteristiche dei dati originali e dei campioni generati da GATS, notiamo che i riassunti dei dati GATS riflettono da vicino i dati originali. Ad esempio, la mediana e l'intervallo interquartile (IQR) di entrambi i dataset mostrano valori simili per caratteristiche chiave. Questo indica che GATS riesce a riassumere con successo le informazioni dal dataset originale.
Usando tecniche visive come l'Embedding Stocastico di Vicinato t-distribuito (t-SNE), vediamo che sia i dataset originali che quelli generati da GATS si raggruppano distintamente in base allo stato di COVID-19 dei pazienti. Questo supporta ulteriormente le nostre affermazioni sulla privacy dei dati dei singoli pazienti.
Analizzando i risultati delle previsioni, troviamo che GATS supera vari metodi all'avanguardia con bassi livelli di privacy (utilizzando meno campioni) mantenendo comunque livelli di prestazione simili ai modelli di base addestrati su dati originali a livelli di privacy più elevati.
Esplorazione degli Effetti degli Iperparametri
Esploriamo anche come le prestazioni di GATS siano influenzate dai suoi iperparametri. Sperimentando con diverse combinazioni di campioni di pazienti, rapporti di etichette miste e dimensioni dei batch, scopriamo che impostazioni specifiche possono portare a prestazioni migliori. Ad esempio, incorporare campioni da classi diverse può migliorare le prestazioni, in particolare per le classi minoritarie.
In generale, vediamo che GATS può mantenere prestazioni attraverso vari dataset e condizioni, rendendolo un candidato forte per generare dati di addestramento preservando la privacy.
Conclusione
In questo studio, presentiamo GATS, un nuovo framework per generare campioni di addestramento combinando caratteristiche di più pazienti. I campioni creati tramite GATS possono servire come riassunti di dati reali mentre preservano la privacy. Questo metodo affronta molte delle sfide poste dalle normative sulla privacy dei dati e rappresenta un passo verso la maggiore accessibilità dei dati sanitari per la ricerca e la collaborazione.
Sebbene GATS abbia mostrato risultati promettenti, ci sono aree che necessitano di ulteriori esplorazioni. Le ricerche future possono esaminare come ottimizzare gli iperparametri, gestire dati rumorosi o mancanti e convalidare la fedeltà dei campioni generati. Inoltre, sarà importante valutare l'efficacia di GATS in varie strutture dati, inclusi immagini, testo e dati di serie temporali.
Infine, le sfide normative in corso relative ai dati sanitari devono essere affrontate. Coinvolgere esperti legali nello sviluppo e nell'applicazione di GATS può aiutare a garantire il rispetto delle leggi e regolamenti esistenti facilitando al contempo opportunità di ricerca preziose.
Attraverso questi sforzi, speriamo di aprire la strada a una condivisione più efficace dei dati nel settore sanitario, a beneficio di ricercatori, pazienti e organizzazioni sanitarie.
Titolo: Geometrically-aggregated training samples: Leveraging summary statistics to enable healthcare data democratization
Estratto: Healthcare data is highly sensitive and confidential, with strict regulations and laws to protect patient privacy and security. However, these regulations impede the access of healthcare data to a wider AI research community. As a result, AI healthcare research is often dominated by organisations with access to larger datasets or limited to silo-based development, where models are trained and evaluated on a limited population. Taking inspiration from the non-sensitive nature of the summary statistics (mean, variance, etc.) of healthcare data, this paper proposes geometrically-aggregated training samples (GATS) where each training sample is a convex combination of multiple patients characteristics. Thus, mappings from patients to any constructed sample are highly convoluted, preserving patient privacy. We demonstrate that these "summary training units" provide effective training on different tabular and time-series datasets (CURIAL, UCI Adult, and eICU), and indeed behave as a summary of the original training datasets. This approach takes important steps towards data accessibility and democratization.
Autori: Jenny Yang, A. Thakur, A. A. S. Soltan, D. A. Clifton
Ultimo aggiornamento: 2023-10-25 00:00:00
Lingua: English
URL di origine: https://www.medrxiv.org/content/10.1101/2023.10.24.23297460
Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.10.24.23297460.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.