Migliorare il rilevamento degli eventi avversi legati ai farmaci grazie alla conoscenza contestuale
Questo studio analizza come la conoscenza contestuale migliori la rilevazione di eventi avversi legati ai farmaci.
― 8 leggere min
Indice
- Avanzamenti nella Tecnologia
- Tipi di Dati Utilizzati
- Ricerca Passata nell'Estrazione di ADE
- Il Nostro Approccio di Ricerca
- Set di Dati e Risorse di Conoscenza
- Il Dataset CADEC
- Il Dataset SMM4H
- Il Dataset PSYTAR
- I Dataset TAC e ADE
- Basi di Conoscenza e Ontologie
- Ontologia dei Sintomi
- Risorse sui Farmaci
- Metodologia per il Rilevamento di ADE
- Modelli di Fusione della Conoscenza
- Architettura del Modello
- Processo di Formazione e Valutazione
- Metriche di Valutazione
- Panoramica dei Risultati
- Analisi dei Risultati
- Intuizioni Ottenute
- Direzioni Future
- Conclusione
- Fonte originale
- Link di riferimento
Eventi avversi da farmaci (ADE) sono infortuni che possono verificarsi a causa dell’uso di medicinali. Sono una preoccupazione significativa in medicina poiché riguardano direttamente la sicurezza dei pazienti. Molte persone condividono le loro esperienze negative con i farmaci attraverso vari canali, come sistemi di segnalazione ufficiali e social media. Anche i medici segnalano questi eventi nelle loro note cliniche. Tuttavia, questi incidenti sono spesso sepolti in testi lunghi, rendendo difficile identificare ed estrarre informazioni pertinenti. Quindi, trovare un modo per setacciare automaticamente questa enorme quantità di testo può far risparmiare tempo ai professionisti medici. Serve un metodo efficace per trovare ed estrarre dati sugli ADE da una gamma di fonti testuali.
Avanzamenti nella Tecnologia
Negli ultimi anni, il campo dell'Elaborazione del linguaggio naturale (NLP) è evoluto notevolmente, in particolare con nuovi modelli linguistici che utilizzano una struttura chiamata transformers. Questi modelli funzionano bene in vari compiti che coinvolgono il testo. Alcuni sono stati applicati con successo per rilevare ADE da documenti scritti. I testi relativi agli ADE generalmente rientrano in due categorie: rapporti formali scritti da professionisti sanitari e rapporti informali condivisi da pazienti o famiglie, spesso sui social media. I testi informali possono contenere gergo, abbreviazioni e opinioni, rendendoli diversi dai rapporti medici. Data la crescente quantità di tale testo informale, c'è bisogno di analizzare specificamente le informazioni riportate dai pazienti.
Tipi di Dati Utilizzati
In questo studio, abbiamo esaminato diversi Set di dati che contengono informazioni rilevanti sugli ADE. Un set di dati chiave è il corpus CADEC, che consiste in post annotati da un sito web dove i pazienti condividono le loro esperienze con i farmaci. Un altro set di dati, chiamato SMM4H, include post su Twitter che menzionano ADE. Inoltre, ci sono altre fonti di dati, tra cui PSYTAR, TAC e set di dati ADE. Ognuna di queste fonti ha caratteristiche uniche. I set di dati CADEC, SMM4H e PSYTAR consistono principalmente di testi scritti dai pazienti, mentre TAC e ADE consistono di linguaggio formale e scientifico redatto da esperti medici.
Ricerca Passata nell'Estrazione di ADE
Vari studi precedenti hanno cercato modi per estrarre informazioni sugli ADE dai testi. Alcuni di questi studi hanno testato diversi modelli linguistici sul corpus CADEC, ottenendo tassi di successo variabili. Ad esempio, un modello ha ottenuto un punteggio significativo basato su corrispondenze rigorose, mentre altri hanno utilizzato approcci diversi per riportare i loro risultati. Tecniche diverse, come l'apprendimento federato e l'apprendimento multi-task, sono state utilizzate per affrontare il problema dell'estrazione degli ADE.
Il Nostro Approccio di Ricerca
In questa ricerca, abbiamo condotto esperimenti per valutare diversi metodi per migliorare il rilevamento degli ADE utilizzando i set di dati menzionati. Ci siamo concentrati sulla combinazione di modelli moderni basati su transformers con ulteriore conoscenza contestuale per risultati migliori. Questo ha comportato la creazione di un grafo della conoscenza che cattura informazioni sui nomi dei farmaci e sintomi. Abbiamo utilizzato un tipo di rete chiamata rete neurale a grafo per apprendere rappresentazioni dei dati su farmaci e sintomi.
Set di Dati e Risorse di Conoscenza
Abbiamo utilizzato diversi set di dati, tra cui CADEC, SMM4H, PSYTAR, TAC e ADE, per condurre i nostri esperimenti. Il corpus CADEC contiene post di pazienti che discutono le loro esperienze con vari farmaci. Il set di dati SMM4H si concentra su post su Twitter e include solo menzioni di reazioni avverse ai farmaci senza annotazioni dettagliate sui farmaci. Il corpus PSYTAR ha recensioni di specifici farmaci psichiatrici, mentre il corpus TAC è basato su etichette di farmaci. Il corpus ADE comprende rapporti di casi dalla letteratura medica.
Il Dataset CADEC
Il dataset CADEC include vari tipi di annotazioni come ADE, farmaci, malattie, sintomi e altre scoperte cliniche. Presenta post relativi a vari farmaci, tra cui Diclofenac e Lipitor, e contiene oltre mille annotazioni riguardanti le menzioni di ADE.
Il Dataset SMM4H
Il dataset SMM4H fa parte di un'iniziativa di mining dei social media. In particolare, ci siamo concentrati su un sottoinsieme di tweet che menzionano ADE, con circa 1.300 tweet e 1.800 menzioni annotate.
Il Dataset PSYTAR
Il corpus PSYTAR è composto da recensioni di pazienti sui farmaci psichiatrici. Contiene varie annotazioni, comprese le menzioni di ADE e sintomi, rendendolo una risorsa preziosa per comprendere le reazioni avverse a questo tipo di farmaci.
I Dataset TAC e ADE
Il corpus TAC è stato creato da etichette di farmaci e utilizzato in una sfida di annotazione testuale. Mira a estrarre diverse entità, comprese le menzioni di ADE. Il dataset ADE comprende rapporti di casi, consentendo un'esaminazione approfondita degli eventi avversi in un contesto clinico.
Basi di Conoscenza e Ontologie
Per migliorare i nostri modelli per il rilevamento di ADE, abbiamo utilizzato risorse di conoscenza che offrono informazioni strutturate su sintomi e farmaci. Queste risorse aiutano a fornire contesto al modello, permettendogli di attingere a dati più ricchi quando identifica gli ADE.
Ontologia dei Sintomi
L'ontologia dei sintomi è un modo organizzato di categorizzare i sintomi in base alle loro definizioni e relazioni. Aiuta a creare una comprensione condivisa di come i sintomi siano correlati a malattie e farmaci.
Risorse sui Farmaci
Per i farmaci, abbiamo creato un'ontologia che consolida conoscenze provenienti da vari database sui farmaci. Questa ontologia include informazioni sui nomi dei farmaci, descrizioni, meccanismi d'azione e classificazioni.
Metodologia per il Rilevamento di ADE
Il nostro approccio per il rilevamento di ADE comporta la combinazione delle conoscenze provenienti dalle risorse sui farmaci e sui sintomi con modelli basati su transformers. Prima, identifichiamo le potenziali entità di farmaci e sintomi in un testo dato utilizzando un sistema di tagging basato su regole. Dopo il tagging, elaboriamo i token identificati per estrarre ulteriori informazioni contestuali utilizzando i nostri grafi della conoscenza.
Modelli di Fusione della Conoscenza
Abbiamo testato diversi metodi per incorporare la conoscenza nei nostri modelli, inclusa l'uso di embedding provenienti dai grafi della conoscenza. Questo processo di embedding consente una migliore integrazione delle informazioni contestuali con il modello linguistico.
Architettura del Modello
La nostra ricerca ha utilizzato diverse architetture di modelli, esplorando combinazioni di vari modelli transformer con fusione della conoscenza. Abbiamo fornito risultati di base utilizzando BERT e BioBERT, entrambi ampiamente usati in vari compiti di NLP.
Processo di Formazione e Valutazione
Per una valutazione equa dei nostri modelli, abbiamo diviso i nostri set di dati in set di addestramento, validazione e test. Ogni modello è stato addestrato utilizzando una configurazione simile per garantire coerenza nei risultati. Abbiamo attentamente sintonizzato gli iperparametri per massimizzare le prestazioni.
Metriche di Valutazione
Per valutare i nostri modelli, abbiamo esaminato metriche come precisione, richiamo e punteggio F1. Ogni set di dati è stato etichettato utilizzando un metodo specifico che categorizza il testo in diverse classi, e la valutazione finale si è concentrata sul confronto degli span completi delle menzioni di ADE.
Panoramica dei Risultati
Dopo aver condotto più esperimenti, abbiamo confrontato le prestazioni di vari modelli sui set di test di ciascun dataset. I risultati hanno mostrato che i modelli arricchiti con conoscenza contestuale tendevano a avere prestazioni migliori, specialmente su testi più brevi e informali.
Analisi dei Risultati
Analizzando i nostri risultati, abbiamo osservato che l'efficacia dei modelli di fusione della conoscenza variava tra i diversi set di dati. Ad esempio, nel dataset CADEC, le prestazioni non sono migliorate significativamente con l'aggiunta di conoscenza, mentre i modelli hanno performato meglio sui dataset SMM4H e PSYTAR.
Intuizioni Ottenute
Dai nostri esperimenti, abbiamo scoperto che la conoscenza contestuale relativa ai farmaci era particolarmente utile per migliorare le Prestazioni del Modello. Il dataset CADEC era unico nelle sue caratteristiche, mostrando una limitazione per i metodi di fusione della conoscenza. Gli altri dataset hanno beneficiato di più delle informazioni aggiuntive fornite.
Direzioni Future
C'è un bisogno continuo di ulteriori ricerche nell'estrazione di ADE dai testi, soprattutto riguardo alla mancanza di conoscenza o alla necessità di sistemi di tagging migliori. Esplorare metodi avanzati di machine learning per il riconoscimento delle entità potrebbe fornire ulteriori miglioramenti. La costruzione di set di dati più completi contenenti ADE riportati dai pazienti aiuterà anche a migliorare i modelli futuri.
Conclusione
Questo lavoro fornisce spunti su come la conoscenza contestuale possa arricchire i modelli per l'estrazione di eventi avversi da farmaci. Integrando diverse fonti di dati e basi di conoscenza, dimostriamo che conoscere di più sui farmaci e sui sintomi può aiutare i modelli a performare meglio, specialmente su testi informali. L'architettura che abbiamo sviluppato serve come un metodo promettente per migliorare ulteriormente il rilevamento di ADE nei documenti scritti.
Capire e affrontare gli ADE è fondamentale per migliorare la sicurezza dei farmaci e garantire che i pazienti ricevano cure di qualità. Con i continui progressi nella tecnologia, abbiamo il potenziale per sfruttare meglio i dati provenienti da varie fonti, contribuendo infine a migliorare i risultati di salute per i pazienti.
Titolo: Evaluating Knowledge Fusion Models on Detecting Adverse Drug Events in Text
Estratto: BackgroundDetecting adverse drug events (ADE) of drugs that are already available on the market is an essential part of the pharmacovigilance work conducted by both medical regulatory bodies and the pharmaceutical industry. Concerns regarding drug safety and economic interests serve as motivating factors for the efforts to identify ADEs. Hereby, social media platforms play an important role as a valuable source of reports on ADEs, particularly through collecting posts discussing adverse events associated with specific drugs. MethodologyWe aim with our study to assess the effectiveness of knowledge fusion approaches in combination with transformer-based NLP models to extract ADE mentions from diverse datasets, for instance, texts from Twitter, websites like askapatient.com, and drug labels. The extraction task is formulated as a named entity recognition (NER) problem. The proposed methodology involves applying fusion learning methods to enhance the performance of transformer-based language models with additional contextual knowledge from ontologies or knowledge graphs. Additionally, the study introduces a multi-modal architecture that combines transformer-based language models with graph attention networks (GAT) to identify ADE spans in textual data. ResultsA multi-modality model consisting of the ERNIE model with knowledge on drugs reached an F1-score of 71.84% on CADEC corpus. Additionally, a combination of a graph attention network with BERT resulted in an F1-score of 65.16% on SMM4H corpus. Impressively, the same model achieved an F1-score of 72.50% on the PSYTAR corpus, 79.54% on the ADE corpus, and 94.15% on the TAC corpus. Except for the CADEC corpus, the knowledge fusion models consistently outperformed the baseline model, BERT. ConclusionOur study demonstrates the significance of context knowledge in improving the performance of knowledge fusion models for detecting ADEs from various types of textual data. Author SummaryAdverse Drug Events (ADEs) are one of the main aspects of drug safety and play an important role during all phases of drug development, including post-marketing pharmacovigilance. Negative experiences with medications are frequently reported in textual form by individuals themselves through official reporting systems or social media posts, as well as by doctors in their medical notes. Automated extraction of ADEs allows us to identify these in large amounts of text as they are produced every day on various platforms. The text sources vary highly in structure and the type of language included which imposes certain challenges on extraction systems. This work investigates to which extent knowledge fusion models may overcome these challenges by fusing structured knowledge coming from ontologies with language models such as BERT. This is of great interest since the scientific community provides highly curated resources in the form of ontologies that can be utilized for tasks such as extracting ADEs from texts.
Autori: Sumit Madan, P. Wegner, H. Fröhlich
Ultimo aggiornamento: 2024-02-15 00:00:00
Lingua: English
URL di origine: https://www.medrxiv.org/content/10.1101/2024.02.14.24302829
Fonte PDF: https://www.medrxiv.org/content/10.1101/2024.02.14.24302829.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://askapatient.com
- https://go.drugbank.com/drugs/DB00586
- https://go.drugbank.com/drugs/DB01076
- https://healthlanguageprocessing.org/smm4h-shared-task-2021/
- https://www.nlm.nih.gov/research/umls/index.html
- https://www.who.int/standards/classifications/classification-of-diseases
- https://github.com/thunlp/ERNIE