Simple Science

Scienza all'avanguardia spiegata semplicemente

# Scienze della salute# Informatica sanitaria

Migliorare gli standard di reporting nella ricerca medica

Uno studio rivela metodi per migliorare la chiarezza nei report delle prove controllate randomizzate.

― 6 leggere min


Migliorare gli StandardMigliorare gli Standarddi Reporting degli RCTmedica.chiarezza negli articoli di ricercaNuovi metodi puntano a migliorare la
Indice

La segnalazione chiara e onesta nella ricerca medica è fondamentale. Aiuta la gente a capire se gli studi sono validi e affidabili, guidando le decisioni nella cura dei pazienti e nelle politiche sanitarie. Purtroppo, molti studi non vengono riportati bene, e questo può portare a bias, rendendo difficile combinare i risultati o replicare le scoperte. Questa mancanza di trasparenza può minare la fiducia nella ricerca medica. Per affrontare questo problema, sono state create delle linee guida per stabilire standard minimi di reporting, ma molte riviste non le applicano in modo efficace.

Gli studi clinici controllati randomizzati (RCT) sono il modo migliore per testare se un trattamento funziona, quando sono fatti bene. Il CONSORT 2010 Statement è una linea guida specifica per riportare i risultati degli RCT. Include una checklist e un diagramma di flusso per mostrare il percorso dei partecipanti. La checklist ha 25 elementi chiave necessari per capire gli studi. Anche se molte riviste supportano le linee guida CONSORT, molti studi continuano a riportare male, anche quando gli RCT sono condotti bene. Alcuni studi suggeriscono che il reporting è migliorato nel tempo.

Un motivo per cui non si seguono le linee guida CONSORT è che le riviste possono sostenerle ma spesso non controllano se gli autori le seguono. Un modo per migliorare questo è far esaminare le sottomissioni dagli editor delle riviste per assicurarsi che siano conformi prima che inizi il processo di revisione paritaria. Questo metodo può migliorare la qualità del reporting, ma può essere difficile e richiedere tempo per gli editor. Automatizzare questo processo di revisione usando la tecnologia potrebbe aiutare a ridurre il carico sugli editor, velocizzando il processo e migliorando la qualità del reporting.

In lavori precedenti, è stata creata una raccolta di rapporti RCT che mostrava quanto bene gli autori seguivano la checklist CONSORT (CONSORT-TM). Abbiamo sviluppato modelli utilizzando tecniche di elaborazione del linguaggio per identificare alcuni elementi della checklist legati ai metodi di studio. In questo studio, miriamo a addestrare e affinare modelli per identificare tutti gli elementi della checklist CONSORT in dettaglio.

Ricerca Correlata

La maggior parte della ricerca sull'elaborazione del linguaggio negli articoli RCT si è concentrata sulla classificazione delle sezioni usando il framework PICO, che sta per Popolazione, Intervento, Comparatore e Risultato. Questa classificazione aiuta a rivedere sistematicamente gli studi. Altri studi hanno cercato di automatizzare la valutazione dei bias o classificare sezioni di abstract medici. Tuttavia, la ricerca su altre caratteristiche importanti è meno comune.

La raccolta CONSORT-TM rappresenta uno sforzo completo per annotare le caratteristiche degli RCT. Lavori precedenti hanno mostrato che un modello che utilizza BioBERT ha superato metodi precedenti. La nostra analisi precedente di oltre 176.000 RCT dal 1966 al 2018 ha rivelato miglioramenti nei metodi di reporting, ma ha enfatizzato che ci sono ancora problemi significativi.

I grandi modelli di linguaggio che utilizzano la tecnologia Transformer, come GPT, hanno mostrato forti capacità di generazione di testo e sono stati applicati a vari compiti sia nel campo generale che in quello medico. Modelli come BioGPT, specifici per l'area biomedica, sono stati addestrati anche per questi compiti. Sono state sviluppate tecniche per utilizzare questi modelli in modo efficace. BioGPT ha mostrato prestazioni migliori rispetto ai modelli tipici nella classificazione dei documenti. In ricerche recenti, GPT-3.5 è stato in grado di controllare i rapporti RCT per la conformità a una selezione di elementi CONSORT, ottenendo alta precisione.

Metodi e Materiali

Il corpus CONSORT-TM è composto da 50 articoli RCT che sono stati annotati a livello di frase, concentrandosi su 37 elementi della checklist CONSORT. Questo corpus ha circa 10.709 frasi e mostra che ogni articolo riporta, in media, 27,5 elementi. Per il nostro studio, volevamo escludere un elemento dalla checklist che è comunemente riportato in tutti gli articoli perché la sua verifica non era necessaria.

In precedenza, abbiamo usato il modello BioBERT, ma ora stiamo passando a PubMedBERT, che ha mostrato risultati migliori in vari compiti biomedici. Lo studio attuale si concentra su quanto bene le frasi riportano gli elementi della checklist. Per alcuni elementi della checklist che vengono riportati meno frequentemente, intendiamo applicare vari metodi di data augmentation per migliorare le prestazioni del modello.

Lo studio guarda anche all'affinamento di un modello generativo chiamato BioGPT e a una tecnica chiamata in-context learning usando GPT-4. L'obiettivo è utilizzare questi modelli per analizzare le frasi in modo più efficiente, migliorando così i risultati complessivi associati agli standard di reporting.

Data Augmentation

Poiché il corpus CONSORT-TM è relativamente piccolo, vogliamo migliorare il dataset per addestrare meglio i nostri modelli. Un modello generativo come GPT-4 può creare nuovo testo che potrebbe aiutare ad addestrare i modelli in modo più efficace. Utilizzeremo questo modello per parafrasare elementi rari e generare nuovi esempi.

Per fare questo, esamineremo alcuni elementi della checklist che hanno meno di 100 campioni. Ad esempio, gli elementi relativi ai cambiamenti nel disegno dello studio, ai cambiamenti nei risultati e ai metodi per altre analisi sono stati segnalati per questo processo.

Un altro approccio per la data augmentation che abbiamo provato si chiama Easy Data Augmentation (EDA), che crea variazioni cambiando le frasi esistenti. Questo include metodi come cancellazione casuale, inserimento e sostituzione di sinonimi.

In-Context Learning

In questo studio, testeremo anche la capacità di in-context learning di GPT-4. Questo significa utilizzare il modello per inferire se una frase negli articoli riporta un elemento della checklist CONSORT basandosi su esempi che forniamo. Promptando GPT-4 con istruzioni specifiche, possiamo vedere quanto bene si comporta nell'identificare frasi rilevanti.

Addestramento e Valutazione del Modello

Poi addestreremo modelli basati sui dati forniti, usando un metodo chiamato cross-validation a 5 pieghe per valutare le prestazioni. Questo significa suddividere i dati in modo che ogni parte di essi serva sia come dati di addestramento che come dati di test in diversi round. Misureremo le prestazioni usando metriche come precisione, richiamo e punteggio F1, che ci aiutano a capire quanto bene i modelli stanno riconoscendo gli elementi della checklist.

Risultati

Dai nostri esperimenti, abbiamo scoperto che l'uso del contesto circostante migliora significativamente le prestazioni nell'identificare gli elementi CONSORT. I modelli che includevano contesto da frasi adiacenti hanno performato meglio rispetto a quelli che non lo avevano. Ulteriori analisi mostreranno come diverse strategie influenzano le prestazioni.

Abbiamo anche scoperto che mentre i modelli generativi come BioGPT e GPT-4 hanno potenziale, non hanno superato il modello PubMedBERT affinato in questo studio. Nonostante GPT-4 generi frasi coerenti, non ha performato bene quando è stato chiesto di classificare le frasi in base agli esempi.

La data augmentation ha fornito alcuni benefici, specialmente per i modelli di base. Tuttavia, per il modello più efficace, l'impatto è stato minimo, indicando che il contesto è una risorsa migliore per migliorare le prestazioni.

Conclusione

Questo studio rappresenta un passo significativo verso l'automazione del riconoscimento degli elementi della checklist CONSORT nelle pubblicazioni RCT. Il modello che ha performato meglio ha utilizzato una versione affinata di PubMedBERT con contesto circostante e struttura dagli articoli per raggiungere i suoi risultati. Anche se non abbiamo trovato forti benefici dall'uso di modelli di linguaggio generativi per la data augmentation o l'in-context learning, i nostri risultati suggeriscono varie strade per migliorare le prestazioni del modello in futuro.

In futuro, prevediamo di espandere il corpus annotato, sperimentare con modelli più efficienti e sviluppare strumenti per automatizzare il processo di verifica della conformità nelle riviste, il che migliorerà alla fine la trasparenza e la completezza nel reporting medico.

Fonte originale

Titolo: CONSORT-TM: Text classification models for assessing the completeness of randomized controlled trial publications

Estratto: ObjectiveTo develop text classification models for determining whether the checklist items in the CONSORT reporting guidelines are reported in randomized controlled trial publications. Materials and MethodsUsing a corpus annotated at the sentence level with 37 fine-grained CONSORT items, we trained several sentence classification models (PubMedBERT fine-tuning, BioGPT fine-tuning, and in-context learning with GPT-4) and compared their performance. To address the problem of small training dataset, we used several data augmentation methods (EDA, UMLS-EDA, text generation and rephrasing with GPT-4) and assessed their impact on the fine-tuned PubMedBERT model. We also fine-tuned PubMedBERT models limited to checklist items associated with specific sections (e.g., Methods) to evaluate whether such models could improve performance compared to the single full model. We performed 5-fold cross-validation and report precision, recall, F1 score, and area under curve (AUC). ResultsFine-tuned PubMedBERT model that takes as input the sentence and the surrounding sentence representations and uses section headers yielded the best overall performance (0.71 micro-F1, 0.64 macro-F1). Data augmentation had limited positive effect, UMLS-EDA yielding slightly better results than data augmentation using GPT-4. BioGPT fine-tuning and GPT-4 in-context learning exhibited suboptimal results. Methods-specific model yielded higher performance for methodology items, other section-specific models did not have significant impact. ConclusionMost CONSORT checklist items can be recognized reasonably well with the fine-tuned PubMedBERT model but there is room for improvement. Improved models can underpin the journal editorial workflows and CONSORT adherence checks and can help authors in improving the reporting quality and completeness of their manuscripts.

Autori: Halil Kilicoglu, L. Jiang, M. Lan, J. D. Menke, C. J. Vorland

Ultimo aggiornamento: 2024-04-01 00:00:00

Lingua: English

URL di origine: https://www.medrxiv.org/content/10.1101/2024.03.31.24305138

Fonte PDF: https://www.medrxiv.org/content/10.1101/2024.03.31.24305138.full.pdf

Licenza: https://creativecommons.org/licenses/by-nc/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili