Avanzare nella scoperta di farmaci attraverso l'integrazione dei dati
Combinare risorse per migliorare l'identificazione dei bersagli farmacologici e la comprensione delle malattie.
Melissa Harrison, S. Tirunagari, S. Saha, A. Venkatesan, D. Suveges, A. Buniello, D. Ochoa, J. McEntyre, E. McDonagh
― 7 leggere min
Indice
Trovare i giusti obiettivi per i farmaci è una parte cruciale nella creazione di nuovi medicinali. Per farlo, gli scienziati devono capire come funzionano le malattie. Guardano a diversi tipi di prove, come i cambiamenti nei geni, le differenze genetiche tra le persone e i dati provenienti da studi clinici.
Uno strumento utile per questo compito è la Open Targets Platform, una risorsa web. Questa piattaforma riunisce molte fonti diverse di prove per aiutare gli scienziati a trovare i migliori obiettivi per i farmaci relativi a varie malattie. Combina informazioni da oltre 20 fonti, offrendo spunti su come gli obiettivi siano collegati alle malattie. Questo include dati su legami genetici, mutazioni, farmaci noti e risultati di studi che coinvolgono animali e percorsi biologici.
La Open Targets Platform fornisce un punteggio che riflette la forza delle prove di ogni fonte. Questo punteggio aiuta i ricercatori a capire quali obiettivi potrebbero essere i più efficaci per il trattamento. Le informazioni sono organizzate in un modo facile da leggere, rendendo semplice per gli utenti accedere alle informazioni di cui hanno bisogno. È disponibile tramite qualsiasi browser web, ha un'API per gli sviluppatori e consente agli utenti di scaricare dati per ulteriori analisi.
Europe PMC
Il Ruolo diUn altro aspetto importante nella scoperta di farmaci è la raccolta di informazioni da articoli scientifici. Europe PMC è una risorsa utile in questo caso. È un ampio e gratuito repository di letteratura biomedica, offrendo accesso a un numero vasto di articoli sulle scienze della vita. Con oltre 41 milioni di abstract e milioni di articoli completi, Europe PMC è in continua crescita. Svolge un ruolo essenziale nel supportare la Open Targets Platform offrendo capacità di text mining che aiutano a identificare le connessioni tra farmaci, obiettivi e malattie.
Europe PMC utilizza tecniche avanzate di text mining per estrarre informazioni rilevanti, fondamentali per trovare relazioni tra farmaci e malattie. Questo processo è una caratteristica chiave della Open Targets Platform, permettendo ai ricercatori di accedere a preziosi spunti estratti dalla letteratura pubblicata.
Il Framework Lit-OTAR
Il framework Lit-OTAR è uno sforzo collaborativo che combina il text mining di Europe PMC con il componente di letteratura di Open Targets. Questo framework aiuta a identificare entità come farmaci, malattie e obiettivi utilizzando tecniche di deep learning per analizzare documenti scientifici. La Open Targets Platform lavora anche per mappare queste entità a database, garantendo che siano correttamente identificate e associate.
L'obiettivo di questo framework è fornire ai ricercatori un servizio affidabile e costante per convalidare gli obiettivi dei farmaci. Si occupa di una lacuna nel text mining biomedico esistente offrendo aggiornamenti più regolari e un ambito di analisi più ampio. Gli sforzi passati in questo settore erano spesso limitati a determinati tipi di dati, focalizzandosi principalmente sui legami gene-malattia, che non coprivano l'intero quadro.
Avanzamenti nel Text Mining
Negli ultimi anni, i miglioramenti nel trattamento del linguaggio naturale (NLP) hanno reso l'analisi dei testi molto più efficace. Nuovi modelli come BioBERT e BioFormer sono emersi in modo prominente. Questi modelli sono stati addestrati utilizzando ampi dati sulle scienze della vita e ottimizzati per compiti specifici. Questo ha portato a miglioramenti significativi nel riconoscere entità menzionate nella letteratura scientifica, consentendo una migliore identificazione delle relazioni tra farmaci, malattie e obiettivi.
Nel lavoro attuale, le tecniche di deep learning usando modelli come BioBERT e BioFormer sono state applicate per affinare il processo di estrazione delle associazioni rilevanti. La pipeline aggiornata include ora la capacità di identificare associazioni tra farmaci e obiettivi, così come tra farmaci e malattie. I ricercatori hanno anche affrontato sfide tecniche come suddividere le strutture documentali complesse per derivare informazioni accurate.
Raccolta e Elaborazione dei Dati
A settembre 2023, Europe PMC detiene circa 39 milioni di abstract e 9 milioni di articoli completi. Tuttavia, solo una parte di questi articoli è inclusa nell'analisi a causa delle regole di licenza e del focus sugli studi originali. I dati selezionati vengono elaborati utilizzando un modello di deep learning che identifica varie entità. Quando due o più entità vengono trovate nella stessa frase, vengono considerate come prove di una connessione.
I dati elaborati vengono quindi inviati alla Open Targets Platform per Normalizzazione e mappatura a database standard. Questo comporta l'abbinamento delle entità delle malattie con l'Experimental Factor Ontology, delle entità chimiche con ChEMBL e delle entità geniche con Ensembl. I dati finali diventano accessibili attraverso diverse API per i ricercatori che ne hanno bisogno.
Riconoscimento delle Entità: Trovare i Termini Giusti
Per migliorare come vengono riconosciute le entità come farmaci e malattie, i ricercatori hanno utilizzato il dataset di Europe PMC. Inizialmente, questo dataset non includeva menzioni di farmaci, quindi lo hanno migliorato aggiungendo un corpus chimico/farmaceutico disponibile pubblicamente. Il dataset arricchito ora cattura menzioni di geni, proteine, malattie, farmaci e altro. Vari modelli sono stati addestrati e testati su questi dati per valutare la loro efficacia nel riconoscere queste entità.
I risultati hanno mostrato che un modello chiamato BioBERT ha ottenuto le migliori performance nel riconoscere correttamente le entità, con alti tassi di precisione e richiamo. Tuttavia, date le sue esigenze computazionali, i ricercatori si sono concentrati sull’ottimizzazione di un altro modello chiamato QEB8L per un'elaborazione più veloce mantenendo l'accuratezza. Questa ottimizzazione ha consentito un'analisi più rapida senza perdere performance.
Normalizzazione: Standardizzazione dei Termini
Dopo che le entità vengono riconosciute, il passo successivo è la normalizzazione. Questo processo assicura che i diversi nomi e menzioni di una particolare entità siano consolidati in un unico riferimento collegato a un database specifico. Questo è importante per raccogliere tutte le informazioni pertinenti e comprendere le connessioni tra varie entità.
Il processo di normalizzazione utilizza tecniche per abbinare le entità a database specifici, permettendo ai ricercatori di analizzare e aggregare i dati in modo efficace. Il successo nella normalizzazione di un gran numero di entità mostra che i metodi scelti sono efficaci, anche se rimangono sfide a causa della complessità della terminologia biomedica.
Co-occorrenza vs. Associazione
Nello studio delle associazioni tra diverse entità, i ricercatori hanno esplorato la differenza tra co-occorrenza e vera associazione. Hanno scoperto che la determinazione dell'associazione può essere soggettiva e può variare tra esperti. Questo porta a sfide nel confermare i legami effettivi tra entità basandosi esclusivamente sulla loro co-occorrenza nei testi.
Dopo aver esaminato il problema, i ricercatori hanno deciso di trattare la co-occorrenza come una forma di associazione. Questo significa che se due entità appaiono insieme, può indicare una potenziale relazione, anche se non è sempre chiaro. Questo approccio aiuta a semplificare l'analisi e consente una comprensione più ampia dei potenziali legami tra farmaci, malattie e obiettivi.
Risultati Generali e Impatto
Il framework Lit-OTAR offre importanti spunti sulle relazioni tra malattie, obiettivi dei farmaci e potenziali trattamenti. Ha elaborato milioni di articoli, identificando molte associazioni uniche. I risultati non solo aiutano a capire le relazioni esistenti, ma aprono anche nuove possibilità per scoprire entità che erano precedentemente non riconosciute.
Questo framework opera in modo continuo, con aggiornamenti che aiutano a garantire che i ricercatori abbiano accesso ai dati e spunti più recenti. Utilizzando efficacemente la letteratura, il framework Lit-OTAR supporta la ricerca terapeutica continua e lo sviluppo di nuovi medicinali, contribuendo ai progressi nella salute.
In sintesi, il lavoro svolto nell'identificare obiettivi per i farmaci e comprendere i meccanismi delle malattie è complesso ma essenziale. Strumenti come la Open Targets Platform e collaborazioni come Lit-OTAR stanno facendo progressi significativi in questo campo, fornendo ai ricercatori risorse e dati preziosi per guidare i loro sforzi nella scoperta di farmaci.
Fonte originale
Titolo: Lit-OTAR Framework for Extracting Biological Evidences from Literature
Estratto: The lit-OTAR framework, developed through a collaboration between Europe PMC and Open Targets, leverages deep learning to revolutionise drug discovery by extracting evidence from scientific literature for drug target identification and validation. This novel framework combines Named Entity Recognition (NER) for identifying gene/protein (target), disease, organism, and chemical/drug within scientific texts, and entity normalisation to map these entities to databases like Ensembl, Experimental Factor Ontology (EFO), and ChEMBL. Continuously operational, it has processed over 39 million abstracts and 4.5 million full-text articles and preprints to date, identifying more than 48.5 million unique associations that significantly help accelerate the drug discovery process and scientific research (> 29.9m distinct target-disease, 11.8m distinct target-drug and 8.3m distinct disease-drug relationships). The results are made accessible through the Open Targets Platform (https://platform.opentargets.org/) as well as Europe PMC website (SciLite web app) and annotations API (https://europepmc.org/annotationsapi).
Autori: Melissa Harrison, S. Tirunagari, S. Saha, A. Venkatesan, D. Suveges, A. Buniello, D. Ochoa, J. McEntyre, E. McDonagh
Ultimo aggiornamento: 2024-12-17 00:00:00
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2024.03.06.583722
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.03.06.583722.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.