ComplexTome: Avanzando nella Ricerca sulle Interazioni Proteiche
Nuovo set di dati e sistemi migliorano l'analisi delle interazioni proteiche nella letteratura biomedica.
― 9 leggere min
Indice
Studiare come interagiscono le Proteine è fondamentale per capire le funzioni biologiche. Queste interazioni possono essere raccolte da varie fonti, tra cui esperimenti e articoli di ricerca pubblicati. Gli scienziati hanno creato database che vengono aggiornati regolarmente per condividere queste informazioni.
Per migliorare questi database, i ricercatori hanno usato il text mining per trovare connessioni tra le proteine menzionate nei testi scientifici. Ad esempio, database come STRING e HumanNet utilizzano questo metodo per creare reti più ampie di interazioni proteiche. Tuttavia, il fatto che due proteine siano menzionate insieme in un testo non significa che interagiscano fisicamente. Per affrontare questo, le versioni precedenti di STRING hanno usato regole per aiutare a estrarre interazioni rilevanti.
Negli ultimi anni, il campo dell'elaborazione del linguaggio naturale in biomedicina ha fatto grandi progressi grazie a metodi migliori basati sul deep learning. Questi nuovi sistemi utilizzano spesso un processo di formazione in due fasi. Prima, apprendono da una grande quantità di testo non annotato e poi affinano le loro abilità utilizzando set di dati più piccoli e etichettati. I modelli basati sull'architettura dei trasformatori, come BERT, hanno mostrato un grande successo. Questi modelli utilizzano hardware potente per addestrarsi su grandi set di dati, raggiungendo risultati di alto livello in vari compiti.
Tuttavia, l'efficacia di BERT e modelli simili dipende dalla disponibilità di un numero sufficiente di dati etichettati. Creare questi set di dati etichettati può essere costoso e richiede conoscenze esperte. Molti set di dati esistenti si concentrano su compiti specifici, rendendo difficile utilizzarli in progetti diversi. Questa sfida evidenzia la necessità di un nuovo set di dati creato con attenzione che si adatti ai requisiti del database STRING.
L'obiettivo principale di questo studio era costruire un sistema che potesse identificare interazioni fisiche tra proteine per il database STRING. A tal fine, abbiamo creato ComplexTome, un nuovo set di dati composto da relazioni annotate tra elementi biomedici. Abbiamo anche impostato un sistema addestrato su questo set di dati per estrarre relazioni dalla letteratura biomedica disponibile e sviluppato un metodo per trovare parole importanti che indicano queste relazioni. I dati raccolti, i metodi e i risultati sono condivisi per l'uso della comunità scientifica.
Il Dataset ComplexTome
Selezione dei Documenti per Annotazione
Per creare ComplexTome, abbiamo seguito un processo in tre fasi per scegliere i documenti da annotare.
Prima, abbiamo esaminato set di dati consolidati, come i set di dati di addestramento e sviluppo BioNLP ST 2009. Da questi, abbiamo trovato 135 abstract che discutevano eventi di formazione di complessi. Tuttavia, poiché le definizioni usate in questi set di dati precedenti non si allineavano con ciò di cui avevamo bisogno per ComplexTome, abbiamo dovuto iniziare l'annotazione da zero.
In seguito, volevamo raccogliere documenti che contenessero relazioni positive. Abbiamo raccolto 400 abstract da un grande database che evidenziava interazioni fisiche o genetiche e 400 paragrafi da articoli a testo completo ad accesso aperto. Ci siamo assicurati di rimuovere tutti i documenti che contenevano più di 20 interazioni.
Infine, abbiamo cercato risorse che illustrassero relazioni negative. Abbiamo selezionato 300 abstract da articoli focalizzati sulle annotazioni dei percorsi e 50 abstract filtrati da un altro database, assicurandoci ancora una volta che fossero rilevanti.
Durante questi passaggi, abbiamo utilizzato un metodo chiamato Riconoscimento di Entità Nominative per identificare le entità proteiche nelle nostre collezioni di documenti. Per assicurarci di avere una varietà di proteine senza ripetizioni, abbiamo limitato la rappresentazione delle proteine comunemente menzionate.
Annotazione delle Entità Nominative
In ComplexTome, abbiamo annotato quattro tipi di entità. Queste includono:
- Proteina: Riferita a geni o prodotti genici.
- Chimico: Comprende sostanze chimiche autonome non collegate ad entità più grandi.
- Complesso: Rappresenta raggruppamenti stabili di molecole, incluse le proteine.
- Famiglia_Proteica: Copre gruppi di proteine con funzioni simili.
Per assistere il processo di annotazione, abbiamo annotato nomi alternativi che si riferiscono alle stesse entità. Questa pratica aiuta a ottenere valutazioni più accurate riconoscendo relazioni da nomi diversi.
Per meglio categorizzare le entità, abbiamo assegnato cinque attributi per inquadrare le entità nominate, come “Mutante” o “Fusione”, che hanno aiutato durante il processo di annotazione.
Annotazione delle Relazioni
Per ComplexTome, ci siamo concentrati sul mettere in evidenza le menzioni esplicite delle interazioni fisiche tra proteine e le abbiamo contrassegnate come relazioni binarie non dirette note come Formazione_Complessi. Se un testo implicava una formazione di complessi, l'abbiamo annotata, ma non abbiamo contrassegnato le affermazioni che negavano tali relazioni.
Due esperti del settore hanno effettuato le annotazioni per garantire l'accuratezza. Hanno annotato indipendentemente una selezione di documenti, permettendoci di controllare l'accordo nelle annotazioni. Abbiamo monitorato il processo da vicino per mantenere la qualità.
Sistema di Estrazione delle Relazioni
Abbiamo sviluppato un sistema per estrarre relazioni di Formazione_Complessi dai testi biomedici. Il sistema funziona prevedendo se esista una relazione tra due entità candidate in base alle loro menzioni nel testo.
Il compito di estrazione opera come un problema di classificazione binaria. Il sistema è costruito sulla tecnologia del deep learning, specificamente su un'architettura di codifica transformer, che gestisce efficacemente il compito di estrazione delle relazioni.
Il sistema consente input in due formati e può essere addestrato con varie impostazioni. Quando il modello è addestrato, affina determinati pesi mentre ne apprende altri da zero. Dopo ogni round di addestramento, valutiamo le sue prestazioni per ottimizzare le impostazioni prima del suo utilizzo finale.
Pre-elaborazione e Rappresentazione dell'Input
Poiché i testi biomedici possono essere lunghi e contenere molte entità, abbiamo adottato un approccio di pre-elaborazione.
Abbiamo usato metodi di marcatura o mascheramento per indicare quali entità erano correlate nel testo. Inoltre, abbiamo tokenizzato il testo e controllato se le coppie di entità potessero essere elaborate all'interno dei vincoli del modello. Questo metodo ci consente di lavorare con testi più lunghi senza perdere informazioni rilevanti.
Elaborando l'input in questo modo, possiamo gestire efficacemente sia i confini delle frasi che i testi lunghi.
Impostazione Sperimentale
Abbiamo creato set di addestramento, sviluppo e test separati per ComplexTome, portando a un'analisi strutturata dell'efficacia del nostro sistema. Abbiamo utilizzato ricerche a griglia per ottimizzare le prestazioni del modello e minimizzare la casualità dei pesi iniziali. Ogni sessione di addestramento è stata valutata e migliorata in base ai risultati del set di sviluppo. Il set di test finale è stato accessibile solo una volta per valutare il nostro modello con le migliori prestazioni.
Il nostro sistema è particolarmente focalizzato sull'estrazione delle relazioni tra le entità Proteiche, filtrando gli elementi non correlati per applicazioni pratiche.
Sistema di Rilevamento dei trigger
Oltre all'estrazione delle relazioni, abbiamo anche costruito un sistema per rilevare parole o frasi significative nel testo che segnalano la presenza di una relazione. Questi termini chiave, noti come trigger, migliorano il processo di estrazione rendendo più chiaro ciò che indica una relazione.
Tradizionalmente, il rilevamento dei trigger si è basato su metodi supervisionati che necessitano di dati annotati. Tuttavia, abbiamo applicato tecniche di spiegazione del modello per identificare i trigger senza necessità di un ampio set di dati di addestramento.
Abbiamo ipotizzato che i token con i punteggi più alti nei nostri modelli corrispondessero spesso ai trigger desiderati. Questo approccio offre un nuovo modo di riconoscere i termini importanti legati alle interazioni proteiche.
Metodi di Rilevamento dei Trigger
Abbiamo testato due tecniche comuni, Layer Integrated Gradients (LIG) e SHapley Additive exPlanations (SHAP), per valutare la loro capacità di identificare i trigger in modo efficace.
Dopo aver ottenuto il nostro miglior modello di estrazione delle relazioni, abbiamo impiegato questi metodi per valutare le prestazioni su un set di sviluppo per trigger dedicato. Abbiamo notato che il rilevamento dei trigger quando il modello commetteva un errore nella previsione delle relazioni non era efficace.
Pertanto, abbiamo prioritizzato il controllo dell'etichetta della relazione prima di procedere con il rilevamento dei trigger. Questo approccio assicura che stiamo lavorando con input accurati e migliora l'affidabilità dei nostri risultati.
Confronto dei Metodi
Nei nostri confronti, abbiamo scoperto che i metodi base semplici hanno performed male nel rilevare i trigger, mentre i metodi basati su SHAP hanno prodotto risultati significativamente migliori. Introducendo regole di post-elaborazione, abbiamo migliorato le prestazioni di entrambi i metodi, aumentando i tassi di precisione e richiamo.
Il modello che ha combinato il metodo LIG con la post-elaborazione ha raggiunto i punteggi più alti per il rilevamento dei trigger nel contesto di Formazione_Complessi. Questo metodo si è rivelato efficace nel riconoscere i termini chiave rilevanti associati alle interazioni.
Risultati e Discussione
ComplexTome mostra una forte concordanza tra gli annotatori, contenendo 1.287 documenti e oltre 3.400 relazioni. Il dataset presenta una ricca varietà di interazioni, con la maggior parte che si trova all'interno di frasi singole.
Il nostro sistema di estrazione delle relazioni ha ottenuto metriche di prestazione notevoli, evidenziando un metodo di successo per identificare le relazioni nei testi biomedici. Un'analisi manuale degli errori ha rivelato categorie, come parole chiave ambigue e frasi complesse, che hanno contribuito a sfide nelle previsioni accurate.
Per il rilevamento dei trigger, il sistema ha dimostrato alti tassi di precisione e richiamo, indicando il suo potenziale utilizzo in applicazioni su larga scala. Sia i sistemi di estrazione che di rilevamento hanno funzionato bene quando applicati a una vasta quantità di letteratura biomedica.
Esecuzione su Larga Scala e Integrazione in STRING v12
Per implementare i nostri sistemi, abbiamo elaborato una collezione completa di abstract di PubMed e articoli a testo completo. Abbiamo convertito questi documenti in un formato adatto per il nostro modello di estrazione delle relazioni, che ha previsto interazioni su un dataset enorme.
Il nostro pipeline prevede milioni di coppie di relazioni, fornendo infine un output semplificato per il database STRING. Gli utenti possono accedere a questi risultati direttamente, consentendo di esplorare interazioni fisiche e la loro letteratura di supporto.
Con ogni aggiornamento, STRING ha migliorato la sua capacità di mostrare interazioni fisiche all'interno di un contesto funzionale più ampio. Questo lavoro non solo espande la copertura delle interazioni nel database, ma consente anche agli utenti di indagare queste connessioni in dettaglio, arricchendo la loro comprensione dei complessi processi biologici.
Presentando le parole più rilevanti che segnalano relazioni, il nostro sistema migliora l'esperienza dell'utente in STRING. Questo approccio duale di estrazione delle relazioni combinato con il rilevamento dei trigger rappresenta un passo innovativo nel campo del text mining per la ricerca biomedica.
Conclusione
Attraverso lo sviluppo di ComplexTome e dei nostri sistemi associati, abbiamo dato un contributo notevole alla comprensione delle interazioni proteiche nella ricerca biomedica. L'alta accuratezza sia dei sistemi di estrazione delle relazioni che di rilevamento dei trigger indica il loro valore per la comunità scientifica.
Con l'evoluzione delle capacità del text mining, il nostro lavoro esemplifica come la modellazione del linguaggio avanzata può migliorare la ricerca biologica su più fronti. L'integrazione dei nostri risultati in STRING v12 segna un momento vitale nel dare senso a reti biologiche complesse, aprendo la strada a future scoperte nel campo.
Titolo: STRING-ing together protein complexes: corpus and methods for extracting physical protein interactions from the biomedical literature
Estratto: Understanding biological processes relies heavily on curated knowledge of physical interactions between proteins. Yet, a notable gap remains between the information stored in databases of curated knowledge and the plethora of interactions documented in the scientific literature. To bridge this gap, we introduce ComplexTome, a manually annotated corpus designed to facilitate the development of text-mining methods for the extraction of complex formation relationships among biomedical entities. This corpus comprises 1,287 documents with [~]3, 500 relationships. We train a novel relation extraction model on this corpus and find that it can highly reliably identify physical protein interactions (F1-score=82.8%). We additionally enhance the models capabilities through unsupervised trigger word detection and apply it to extract relations and trigger words for these relations from all open publications in the domain literature. This information has been fully integrated into the latest version of the STRING database, and all introduced resources are openly accessible via Zenodo and GitHub.
Autori: Katerina Nastou, F. Mehryary, T. Ohta, L. J. Jensen, S. Pyysalo
Ultimo aggiornamento: 2024-02-28 00:00:00
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2023.12.10.570999
Fonte PDF: https://www.biorxiv.org/content/10.1101/2023.12.10.570999.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.