Simple Science

Scienza all'avanguardia spiegata semplicemente

# Scienze della salute# Informatica sanitaria

Confronto dei modelli di previsione del rischio per i tumori ovarici

Uno studio esamina diversi modelli che prevedono i rischi di tumori alle ovaie e la loro accuratezza.

― 8 leggere min


Valutare i modelli diValutare i modelli dirischio tumoraledel rischio di tumori ovarici.scelta dell'algoritmo nelle valutazioniUno studio mostra l'impatto della
Indice

Le pazienti con tumori ovarici hanno bisogno di cure adeguate. Gli studi dimostrano che il trattamento nei centri oncologici specializzati porta a risultati migliori per le pazienti con cancro ovarico. Anche se alcune cisti ovariche sono benigne e possono essere trattate senza chirurgia, i tumori devono essere valutati con attenzione. I modelli di previsione del rischio aiutano i medici a decidere come trattare le pazienti stimando la possibilità che un tumore sia maligno in base a vari fattori.

Uno di questi modelli è ADNEX, che usa una combinazione di informazioni cliniche e ecografiche per categorizzare un tumore come benigno, borderline o in vari stadi di cancro invasivo o metastatico. Questa classificazione è importante perché ogni tipo richiede un approccio diverso.

C'è un crescente interesse nell'utilizzare metodi di machine learning avanzati per migliorare i modelli di previsione. A differenza dei modelli statistici tradizionali, i metodi di machine learning possono scoprire schemi complessi nei dati senza che l'utente debba definirli. Anche se questi modelli avanzati possono dare risultati migliori, una cattiva progettazione può portare a risultati poco affidabili. Una recente revisione ha trovato risultati misti, con metodi di machine learning che performano meglio in alcuni casi ma non in altri. Pochi studi hanno analizzato quanto siano accurati queste previsioni e se siano utili nella pratica clinica.

Inoltre, c'è una consapevolezza che le previsioni possono essere incerte. Dati diversi possono portare a stime di rischio diverse per la stessa paziente, e anche se dimensioni campionarie più grandi possono aiutare a stabilizzare queste stime, l'incertezza può rimanere significativa. L'incertezza del modello può derivare dalle varie scelte fatte durante lo sviluppo del modello, come quali predittori utilizzare o come gestire i dati mancanti. Anche la scelta dell'algoritmo può influenzare le previsioni.

Questo studio ha come obiettivo di confrontare diversi modelli di previsione del rischio per il cancro ovarico utilizzando sia tecniche statistiche tradizionali che metodi moderni di machine learning. La focalizzazione sarà su quanto bene questi modelli performano nel distinguere tra i tipi di tumori, la loro accuratezza e la loro praticità per l'uso clinico. Guarderemo anche a come diversi algoritmi possano portare a diverse stime di rischio per le singole pazienti.

Progettazione dello Studio, Ambientazione e Partecipanti

Questa ricerca è un'analisi secondaria di dati raccolti da più ospedali dal gruppo di Analisi dei Tumori Ovari (IOTA). Per addestrare i modelli, sono stati utilizzati dati di oltre 5.900 pazienti in 24 centri dal 1999 al 2012. Tutte le pazienti avevano almeno un tumore che non era una semplice cisti e avevano subito un intervento chirurgico entro 120 giorni dalla loro ecografia.

Per la validazione esterna dei modelli, sono stati utilizzati dati di quasi 3.200 pazienti raccolti da 25 centri tra il 2012 e il 2015. Anche queste pazienti avevano tumori ritenuti non semplici cisti e avevano lo stesso cronoprogramma chirurgico del dataset di addestramento. È importante notare che, mentre questo studio ha esaminato pazienti sottoposte a chirurgia, molte pazienti possono essere state trattate in modo conservativo in altri studi.

I centri partecipanti includevano sia strutture di trattamento oncologico sia centri di imaging generali. Tutti gli studi hanno ricevuto approvazione etica e i partecipanti hanno fornito consenso informato. Questa analisi segue le linee guida per la segnalazione dei modelli di previsione.

Raccolta dei Dati

È stata presa una storia dettagliata da ogni paziente durante la visita iniziale per raccogliere informazioni cliniche, e tutte hanno subito un'ecografia standard. Tecniche transaddominali sono state utilizzate se necessario. Vari dati ecografici predefiniti sono stati raccolti come parte del protocollo di ricerca. Se erano presenti più tumori, è stato selezionato quello più complesso per l'analisi.

L'outcome principale è stata la classificazione dei tumori in cinque categorie basate sui risultati chirurgici: benigno, borderline, stadio I primario invasivo, stadio II-IV primario invasivo, o tumori metastatici secondari. La valutazione è stata effettuata senza conoscenza dei risultati ecografici, anche se alcune informazioni rilevanti potrebbero essere state disponibili per i patologi.

Analisi Statistica

Predittori e Dimensione del Campione

L'analisi si è concentrata su nove predittori: tipo di centro, età della paziente, livello di CA125 sierico, dimensione del tessuto solido in relazione alla grandezza del tumore, diametro massimo del tumore, presenza di ombre ecografiche, presenza di accumulo di liquido nell'addome, numero di loculi cistici e numero di proiezioni papillari. Questi predittori sono stati scelti in base alla conoscenza degli esperti sulla loro probabile importanza.

I modelli sono stati creati utilizzando vari metodi: regressione standard, regressione ridge, foreste casuali, boosting estremo, reti neurali e macchine a vettori di supporto. I predittori continui sono stati modellati per permettere relazioni non lineari. I modelli sono stati ottimizzati utilizzando tecniche di cross-validation.

Performance del Modello sui Dati di Validazione Esterna

Per valutare quanto bene i modelli potessero differenziare tra i tipi di tumori, è stato utilizzato l'Indice di Discriminazione Politomica (PDI). Questo indice confronta la capacità del modello di distinguere tra i cinque tipi di tumori. Un PDI di 0,2 indica nessuna discriminazione, mentre un punteggio di 1 mostra una discriminazione perfetta. Lo studio ha anche calcolato statistiche pairwise per valutare la performance tra specifiche coppie di outcome.

La calibrazione dei modelli è stata valutata tramite curve di calibrazione flessibili. Le curve di calibrazione hanno mostrato quanto bene le probabilità previste corrispondessero ai risultati reali. L'efficacia dei modelli negli ambienti clinici è stata valutata calcolando il Net Benefit, che determina quanto un modello sia utile per selezionare pazienti da inoltrare a centri specializzati.

Gestione dei Valori Mancanti

Molte pazienti avevano valori di CA125 mancanti, quindi è stato utilizzato un metodo statistico chiamato imputazione multipla per stimare questi valori mancanti per i dataset di addestramento e validazione.

Procedura di Modellazione e Software

L'analisi è stata condotta utilizzando il software di programmazione R con pacchetti specifici per ciascuna tecnica di modellazione. I risultati per i dataset di sviluppo e validazione sono stati presentati in tabelle di sintesi, con statistiche chiave come età mediana e tipi di tumori delineati.

Performance di Discriminazione

Per i modelli che includevano CA125, i punteggi PDI variavano tra gli algoritmi, con risultati che andavano da punteggi più bassi a punteggi più alti. I migliori modelli hanno raggiunto alte statistiche c-statistiche pairwise, indicando una buona discriminazione tra certi tipi di tumori. Per i modelli senza CA125, i punteggi di performance erano simili ma generalmente più bassi.

Performance di Calibrazione

I risultati di calibrazione hanno mostrato discrepanze nel modo in cui le probabilità prevedevano i risultati reali. Per i modelli con CA125, la probabilità di tumori benigni era spesso sovrastimata. La performance di calibrazione variava per algoritmo, con alcuni modelli che performavano meglio di altri in termini di corrispondenza tra probabilità previste e rischi reali.

Utilità Clinica

Tutti i modelli che includevano CA125 hanno superato le strategie base per il referral dei pazienti. A una soglia di rischio notevole, tutti i modelli hanno fornito una utilità simile, con alcuni algoritmi che performavano meglio a soglie più alte. I risultati erano coerenti per i modelli senza CA125, mostrando una simile utilità clinica.

Confronto delle Probabilità Stimate tra Algoritmi

Lo studio ha trovato che diversi algoritmi potevano produrre stime di probabilità significativamente diverse per singole pazienti. Una percentuale sostanziale di pazienti aveva differenze nelle probabilità stimate di tumori benigni basate sull'approccio di modellazione utilizzato. Quando si applicava una specifica soglia di rischio, alcune pazienti venivano categorizzate diversamente a seconda del modello utilizzato.

Sintesi dei Risultati

La ricerca ha confrontato sei algoritmi per creare modelli di previsione del rischio per i tumori ovarici. Non c'era un chiaro vincitore; diversi algoritmi mostrano performance simili. Includere CA125 ha migliorato alcuni aspetti della performance del modello. Tuttavia, la scelta dell'algoritmo ha influenzato significativamente le stime del rischio individuale, portando potenzialmente a decisioni cliniche diverse per la stessa paziente.

Questo studio ha diversi punti di forza, come l'utilizzo di grandi dataset e tecniche di raccolta standardizzate. Tuttavia, ha anche limiti, inclusa l'inclusione solo di pazienti che hanno subito intervento chirurgico e l'uso di un insieme fisso di predittori.

La ricerca precedente ha esplorato argomenti simili ma spesso su scala più ridotta e focalizzandosi principalmente su risultati binari. Questo studio contribuisce alla comprensione di come diversi modelli di previsione possono influenzare le stime di rischio individuali per i tumori ovarici.

I risultati evidenziano la necessità di set di dati più grandi quando si sviluppano modelli di previsione e suggeriscono che gli algoritmi di machine learning potrebbero richiedere più dati rispetto ai metodi tradizionali. Approcci che trasmettono incertezza attorno alle stime di rischio potrebbero essere anche utili negli ambienti clinici.

In conclusione, mentre più algoritmi possono stimare efficacemente la probabilità di diversi tipi di tumori, la scelta dell'algoritmo può portare a diverse valutazioni di rischio per singole pazienti. Questa osservazione è vitale per i medici che prendono decisioni di trattamento basate su questi modelli.

Fonte originale

Titolo: Multiclass risk models for ovarian malignancy: an illustration of prediction uncertainty due to the choice of algorithm.

Estratto: OBJECTIVETo compare performance and probability estimates of six algorithms to estimate the probabilities that an ovarian tumor is benign, borderline malignant, stage I primary invasive, stage II-IV primary invasive, or secondary metastatic. MATERIALS AND METHODSModels were developed on 5909 patients (recruited 1999-2012) and validated on 3199 patients (2012-2015). Nine clinical and ultrasound predictors were used. Outcome was based on histology following surgery within 120 days after the ultrasound examination. We developed models using multinomial logistic regression (MLR), Ridge MLR, random forest (RF), XGBoost, neural networks (NN), and support vector machines (SVM). RESULTSBenign tumors were most common (62%), secondary metastatic tumors least common (5%). XGBoost, RF, NN and MLR had similar performance: c-statistics for benign versus any type of malignant tumors were 0.92, multiclass c-statistics 0.54-0.55, average Estimated Calibration Indexes 0.03-0.07, and Net Benefits at the 10% malignancy risk threshold 0.33-0.34. Despite poorer discrimination and calibration performance for Ridge MLR and in particular SVM, Net Benefits were similar for all models. The estimated probabilities often differed strongly between models. For example, the probability of a benign tumor differed by more than 20 percentage points in 29% of the patients, and by more than 30 percentage points in 16% of the patients. DISCUSSIONSeveral regression and machine learning models had very good and similar performance in terms of discrimination, calibration and clinical utility. Nevertheless, individual probabilities often varied substantially. CONCLUSIONMachine learning did not outperform MLR. The choice of algorithm can strongly affect probabilities given to a patient.

Autori: Ben Van Calster, A. Ledger, J. Ceusters, L. Valentin, A. Testa, C. Van Holsbeke, D. Franchi, T. Bourne, W. Froyman, D. Timmerman

Ultimo aggiornamento: 2023-07-27 00:00:00

Lingua: English

URL di origine: https://www.medrxiv.org/content/10.1101/2023.07.25.23293141

Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.07.25.23293141.full.pdf

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili