Migliorare il reclutamento nei trial sul cancro con strumenti NLP
I modelli NLP aiutano a identificare i criteri di idoneità per le sperimentazioni cliniche sul cancro.
― 6 leggere min
Indice
Il Cancro colpisce tante persone, portando a tassi elevati di malattia e morte. Solo negli Stati Uniti, nel 2022 ci sono stati quasi 1,9 milioni di nuovi casi di cancro e oltre 600.000 decessi. Le sperimentazioni cliniche giocano un ruolo fondamentale nello sviluppo di nuovi trattamenti e farmaci per il cancro. Tuttavia, coinvolgere i pazienti in queste sperimentazioni può essere complicato. Molti pazienti sono preoccupati per i rischi dei nuovi trattamenti o non ricevono informazioni complete sulle sperimentazioni. Inoltre, trovare le sperimentazioni giuste può essere difficile perché le regole su chi può partecipare sono spesso scritte in un linguaggio complesso, difficile da capire per chi non è nel campo medico.
Criteri di idoneità
L'importanza deiOgni sperimentazione clinica ha un protocollo, che è come un piano dettagliato che include gli obiettivi, il design, i metodi e le regole della sperimentazione. I criteri di idoneità sono una parte cruciale di questo piano, poiché definiscono chi può partecipare. Questi criteri di solito includono i requisiti che i pazienti devono avere (criteri di inclusione) e ciò che potrebbe escluderli (criteri di esclusione).
ClinicalTrials.gov è un sito pubblico dove sono elencate informazioni sulle sperimentazioni cliniche negli Stati Uniti. Ha cominciato a richiedere la registrazione delle sperimentazioni nel 2007. All'inizio del 2023, circa mezzo milione di studi erano registrati. Questa enorme quantità di informazioni è utile per la ricerca, comprese le tendenze nel tempo, la comprensione delle diverse popolazioni coinvolte nelle sperimentazioni e lo sviluppo di strumenti che aiutano nel Reclutamento dei pazienti.
Sfide nel reclutamento
Trovare pazienti idonei per le sperimentazioni cliniche può richiedere molto tempo e impegno. Un grosso problema è che i criteri di idoneità non sono spesso scritti in un formato coerente. Questa incoerenza può confondere sia i pazienti che i loro medici, causando ritardi nel reclutamento. C'è una crescente necessità di strumenti automatici per aiutare a identificare rapidamente e accuratamente questi criteri.
Il Natural Language Processing (NLP) è un campo dell'informatica che si concentra sull'interazione tra computer e linguaggio umano. L'NLP ha molti usi in sanità, come estrarre e organizzare informazioni da dati testuali come i criteri di idoneità e le cartelle cliniche dei pazienti. Usando strumenti NLP, è possibile creare sistemi che identificano automaticamente i requisiti importanti per le sperimentazioni cliniche, semplificando il processo di reclutamento per pazienti e operatori sanitari.
Il nostro progetto
Il nostro obiettivo è creare dei classificatori che identificano i criteri di esclusione chiave nelle descrizioni di idoneità delle sperimentazioni sul cancro trovate su ClinicalTrials.gov. Abbiamo sviluppato il nostro modello basato su framework NLP esistenti, utilizzando oltre mezzo milione di sezioni di criteri di idoneità da questo database. I risultati del nostro modello saranno confrontati con altri modelli esistenti per valutarne le prestazioni.
Lavori correlati nel text mining
Diversi progetti hanno già lavorato per rendere più facile trovare e organizzare i criteri di idoneità per le sperimentazioni cliniche. Ad esempio, Criteria2Query è uno strumento che converte descrizioni di idoneità complesse in query più semplici che possono aiutare a identificare i pazienti idonei. DQueST è un altro progetto che fornisce un questionario per guidare le persone nel trovare sperimentazioni appropriate.
Esistono anche altri strumenti per strutturare i criteri di idoneità o estrarre informazioni pertinenti che abbiano a che fare con i requisiti delle sperimentazioni. Alcuni sforzi si concentrano sulla creazione di basi di conoscenza, database o lessici che categorizzano criteri di idoneità comuni. Esempi includono i progetti EliIE e Chia, che forniscono collezioni di sperimentazioni annotate per malattie specifiche.
Raccolta e processo di annotazione dei dati
Per il nostro studio, abbiamo raccolto 764 sperimentazioni cliniche sul cancro da ClinicalTrials.gov, concentrandoci su sperimentazioni dal 2000 al 2017. Ogni sperimentazione è stata annotata da professionisti medici utilizzando un attento processo di revisione da due persone per garantire precisione. Ci siamo concentrati sull'identificazione di sette criteri chiave che sono importanti per le sperimentazioni sul cancro:
- Cancro precedente
- Stato HIV
- Stato HBV
- Stato HCV
- Malattia psichiatrica
- Uso di droghe e alcol
- Condizioni autoimmuni
Abbiamo diviso il testo di idoneità di ciascuna sperimentazione in frasi per aiutare il modello a identificare meglio i criteri. Questo passaggio era necessario perché molti modelli esistenti possono gestire solo una quantità limitata di testo alla volta e frasi più brevi sono più facili da elaborare per il modello.
Corrispondenza di parole chiave
Per trovare frasi pertinenti, abbiamo creato un elenco di parole chiave per ciascuno dei sette criteri. Abbinando queste parole chiave nel testo, abbiamo estratto frasi che contenevano le informazioni più cruciali. Questo processo aiuta il modello a imparare come classificare accuratamente le frasi in base ai criteri di nostro interesse.
Le liste di parole chiave per ciascun criterio ci aiutano a bilanciare sensibilità e accuratezza. A volte, potremmo mantenere frasi che non sono direttamente rilevanti perché capire quando le informazioni mancano è altrettanto critico per le prestazioni del modello.
Il processo di annotazione
Dopo aver estratto le frasi, abbiamo fatto rivedere a due annotatori il loro riferimento ai criteri. Abbiamo risolto eventuali disaccordi attraverso discussioni e riferimenti alla documentazione della sperimentazione. Questo processo di revisione ha garantito che mantenessimo gli stessi standard delle annotazioni originali delle sperimentazioni.
Implementazione del modello
Abbiamo utilizzato diversi modelli NLP avanzati per valutare l'efficacia del nostro approccio. Abbiamo diviso il dataset in un set di addestramento e un set di test, permettendoci di valutare le prestazioni del modello. L'obiettivo era usare i dati di addestramento per creare un modello robusto in grado di classificare accuratamente i criteri di idoneità in diverse sperimentazioni.
La nostra valutazione ha incluso diversi modelli NLP ben noti progettati specialmente per testi medici, come BioBERT e ClinicalBERT. Inoltre, abbiamo utilizzato il nostro modello specificamente addestrato per questo progetto.
Metriche di valutazione
Per misurare quanto bene hanno performato i nostri modelli, abbiamo esaminato precisione, richiamo e punteggi F1. Queste metriche aiutano a mostrare quanto accuratamente il modello può identificare informazioni rilevanti. Abbiamo calcolato i punteggi sia a livello di frase che a livello di sperimentazione per capire quanto bene il modello funzioni in scenari reali.
Risultati
Abbiamo scoperto che il nostro modello pre-addestrato ha performato molto bene, raggiungendo spesso i risultati migliori rispetto ad altri modelli per la maggior parte dei criteri. Ad esempio, quando abbiamo testato lo stato di cancro precedente, il nostro modello ha ottenuto punteggi elevati. Tuttavia, alcuni criteri erano più difficili, come lo stato HCV, dove il modello ha faticato a identificare correttamente le frasi rilevanti.
Nonostante queste sfide, i nostri risultati hanno mostrato che il nostro modello poteva identificare e classificare efficacemente informazioni rilevanti, in particolare per i criteri chiave delle sperimentazioni sul cancro.
Conclusione
In sintesi, abbiamo sviluppato con successo classificatori automatici utilizzando modelli NLP per identificare criteri critici di idoneità per le sperimentazioni cliniche sul cancro. Il nostro lavoro ha dimostrato che questi strumenti possono aggiungere valore migliorando il processo di reclutamento per pazienti e clinici. Man mano che andiamo avanti, pianifichiamo di espandere i nostri modelli per coprire più criteri e malattie, mirando a creare uno strumento completo che possa aiutare nel reclutamento per le sperimentazioni cliniche in diverse condizioni.
Semplificando la comunicazione dei criteri di idoneità, possiamo aiutare più pazienti a trovare le sperimentazioni che potrebbero offrire loro speranza e nuove opzioni di trattamento.
Titolo: Using Large Language Models to Generate Clinical Trial Tables and Figures
Estratto: Tables, figures, and listings (TFLs) are essential tools for summarizing clinical trial data. Creation of TFLs for reporting activities is often a time-consuming task encountered routinely during the execution of clinical trials. This study explored the use of large language models (LLMs) to automate the generation of TFLs through prompt engineering and few-shot transfer learning. Using public clinical trial data in ADaM format, our results demonstrated that LLMs can efficiently generate TFLs with prompt instructions, showcasing their potential in this domain. Furthermore, we developed a conservational agent named Clinical Trial TFL Generation Agent: An app that matches user queries to predefined prompts that produce customized programs to generate specific predefined TFLs.
Autori: Yumeng Yang, Peter Krusche, Kristyn Pantoja, Cheng Shi, Ethan Ludmir, Kirk Roberts, Gen Zhu
Ultimo aggiornamento: 2024-09-18 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2409.12046
Fonte PDF: https://arxiv.org/pdf/2409.12046
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.