Impatto del Machine Learning sulle Previsioni delle Immagini Mediche
Esaminando le influenze demografiche nelle previsioni mediche con l'apprendimento automatico.
― 5 leggere min
Indice
- Preoccupazioni Riguardo l'Influenza Demografica nelle Previsioni
- Obiettivi di Questo Studio
- Raccolta e Preparazione dei Dati
- Addestramento dei Classificatori
- Investigazione delle Caratteristiche con Analisi di Clustering
- Generazione di Immagini Contrafattuali
- Analisi delle Prestazioni e Risultati
- Implicazioni per l'AI Medica
- Conclusione
- Fonte originale
L'apprendimento automatico (ML) sta cambiando il modo in cui gestiamo e interpretiamo le immagini mediche, specialmente per classificare le immagini legate alle diagnosi. Recentemente, molti dispositivi ML sono stati approvati per l'uso nella sanità. Questi dispositivi possono analizzare le immagini e fornire previsioni basate su vari elementi osservati in quelle immagini. Tuttavia, ci sono preoccupazioni riguardo l'accuratezza e l'equità di queste previsioni, in particolare quando si basano su informazioni demografiche specifiche, come la razza o il sesso di una persona.
Preoccupazioni Riguardo l'Influenza Demografica nelle Previsioni
Una preoccupazione principale è che questi sistemi ML potrebbero usare involontariamente informazioni demografiche sensibili per fare previsioni. Questo potrebbe portare a risultati distorti, soprattutto se il sistema si comporta in modo diverso per diversi gruppi di persone. Ad esempio, se un classificatore prevede una condizione medica e ha imparato ad associare questa condizione a tratti demografici specifici, le sue Prestazioni potrebbero risentirne quando applicato a un nuovo gruppo di pazienti che non condividono quegli stessi tratti.
Inoltre, ricerche passate hanno dimostrato che alcuni sistemi ML sono stati in grado di prevedere dettagli demografici solo dalle immagini mediche, anche se quelle informazioni non sono fornite direttamente. Questo solleva la domanda su quali Caratteristiche specifiche dell'immagine si basino i sistemi ML. Suggerisce che potrebbero esserci segnali o indicatori unici nelle immagini che solo le macchine possono rilevare.
Obiettivi di Questo Studio
Questo studio si propone di investigare come i classificatori ML prevedono caratteristiche demografiche sensibili, concentrandosi sulla previsione del sesso da immagini della pelle scattate con un metodo chiamato dermoscopia. Lo studio si pone due domande principali:
Su quali caratteristiche dell'immagine si basano questi classificatori quando fanno previsioni?
Come si comportano diversamente questi classificatori quando applicati a vari gruppi demografici, specialmente se il sistema ha appreso da dati distorti?
Per rispondere a queste domande, i ricercatori hanno impiegato approcci dal campo dell'AI spiegabile (XAI). Questo significa che hanno usato tecniche per rendere il processo decisionale dei sistemi ML più chiaro e comprensibile.
Raccolta e Preparazione dei Dati
Per studiare come l'AI prevede il sesso dalle immagini della pelle, il team di ricerca ha utilizzato una grande raccolta di immagini dermoscopiche. Queste immagini sono state raccolte da un archivio specifico conosciuto come l'archivio ISIC. Prima dell'analisi, hanno assicurato che solo le immagini rilevanti, specificamente quelle con dati disponibili sul sesso dei pazienti, fossero incluse.
Le immagini sono state divise in set di addestramento e di test per evitare sovrapposizioni nei pazienti. Il set di addestramento è stato utilizzato per insegnare ai classificatori, mentre il set di test è stato utilizzato per valutare quanto bene si comportano nella pratica. In questo modo, potevano analizzare meglio se i classificatori generalizzano bene su nuovi dati.
Addestramento dei Classificatori
I ricercatori hanno addestrato i loro modelli ML, specificamente un'architettura progettata per il riconoscimento delle immagini, per prevedere il sesso di un paziente basandosi sulle immagini dermoscopiche. Hanno usato un modello preesistente, che era stato addestrato su un diverso dataset di immagini, e l'hanno adattato per il loro compito di classificazione binaria (maschio o femmina). Il processo di addestramento ha comportato un'ottimizzazione attenta per garantire che i modelli funzionassero bene.
Investigazione delle Caratteristiche con Analisi di Clustering
Per scoprire quali caratteristiche i classificatori usavano per fare previsioni, i ricercatori hanno applicato un metodo chiamato analisi di clustering. In parole semplici, hanno raggruppato insieme immagini simili per vedere se tratti specifici erano più prevalenti in un gruppo rispetto a un altro.
Questo processo ha rivelato che alcune caratteristiche, come i capelli, erano comuni nelle immagini classificate come maschili. Inoltre, hanno utilizzato un modello di apprendimento automatico che può interpretare immagini per aiutare a identificare altri potenziali segnali visivi che potrebbero influenzare le previsioni.
Generazione di Immagini Contrafattuali
Un'altra tecnica utilizzata dai ricercatori ha coinvolto la creazione di immagini sintetiche, conosciute come immagini contrafattuali. Queste immagini aiutano a scoprire come i classificatori prendono le loro decisioni cambiando caratteristiche specifiche di un'immagine esistente. Ad esempio, se un'immagine è stata prevista come appartenente a un paziente femminile, i ricercatori hanno alterato attributi per creare un'immagine simile classificata come maschile. Questo metodo ha permesso di esplorare quali caratteristiche fossero più importanti per arrivare alle previsioni.
Analisi delle Prestazioni e Risultati
Dopo queste indagini, i ricercatori hanno quantificato quanto delle prestazioni dei classificatori potesse essere attribuito alle caratteristiche identificate. Hanno trovato che alcuni segnali, come la presenza di capelli, hanno avuto un impatto significativo sulle previsioni. In generale, hanno scoperto che caratteristiche specifiche spiegavano una parte sostanziale delle prestazioni dei classificatori.
Curiosamente, alcuni attributi che si pensava fossero importanti, come i marcatori usati durante gli esami della pelle, non hanno contribuito in modo significativo alle previsioni. I ricercatori hanno notato che mentre caratteristiche come i capelli avevano una forte correlazione con il sesso previsto, altri attributi non si allineavano con le differenze biologiche note.
Implicazioni per l'AI Medica
I risultati di questo studio evidenziano la complessità dell'uso dell'apprendimento automatico negli ambienti medici, specialmente quando si prevedono caratteristiche come il sesso di una persona.
Anche se i classificatori ML possono ottenere risultati impressionanti, la loro dipendenza da segnali specifici può portare a problemi di prestazioni, soprattutto se ci sono cambiamenti demografici nella popolazione dei pazienti. Questo è critico perché può portare a previsioni meno accurate negli ambienti clinici, influenzando in ultima analisi l'assistenza ai pazienti.
Conclusione
L'apprendimento automatico ha un grande potenziale nella classificazione delle immagini mediche. Tuttavia, è essenziale rimanere consapevoli di come questi sistemi apprendono e dei segnali che usano, soprattutto quando questi segnali possono portare a previsioni distorte. Comprendere i processi decisionali di questi sistemi ML è cruciale per garantire equità e accuratezza nella sanità.
Applicando metodi rigorosi per tracciare e valutare le caratteristiche che influenzano le previsioni, i ricercatori possono lavorare per creare sistemi AI più affidabili che supportino il processo decisionale clinico senza introdurre pregiudizi. Le intuizioni ottenute da questo studio aprono la strada a indagini continuative sul ruolo dei segnali demografici nella classificazione delle immagini mediche basata su ML, puntando a un futuro in cui l'AI serva tutti i pazienti in modo equo.
Titolo: Discovering mechanisms underlying medical AI prediction of protected attributes
Estratto: Recent advances in Artificial Intelligence (AI) have started disrupting the healthcare industry, especially medical imaging, and AI devices are increasingly being deployed into clinical practice. Such classifiers have previously demonstrated the ability to discern a range of protected demographic attributes (like race, age, sex) from medical images with unexpectedly high performance, a sensitive task which is difficult even for trained physicians. Focusing on the task of predicting sex from dermoscopic images of skin lesions, we are successfully able to train high-performing classifiers achieving a ROC-AUC score of [~]0.78. We highlight how incorrect use of these demographic shortcuts can have a detrimental effect on the performance of a clinically relevant downstream task like disease diagnosis under a domain shift. Further, we employ various explainable AI (XAI) techniques to identify specific signals which can be leveraged to predict sex. Finally, we introduce a technique to quantify how much a signal contributes to the classification performance. Using this technique and the signals identified, we are able to explain [~]44% of the total performance. This analysis not only underscores the importance of cautious AI application in healthcare but also opens avenues for improving the transparency and reliability of AI-driven diagnostic tools.
Autori: Su-In Lee, S. U. Gadgil, A. J. DeGrave, R. Daneshjou
Ultimo aggiornamento: 2024-04-12 00:00:00
Lingua: English
URL di origine: https://www.medrxiv.org/content/10.1101/2024.04.09.24305289
Fonte PDF: https://www.medrxiv.org/content/10.1101/2024.04.09.24305289.full.pdf
Licenza: https://creativecommons.org/licenses/by-nc/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.