Avanzando nell'identificazione dei marcatori cellulari con MarkerGeneBERT
MarkerGeneBERT migliora l'identificazione dei marcatori cellulari dalla letteratura scientifica.
― 6 leggere min
Indice
Il sequenziamento a singola cellula è un metodo che analizza cellule singole invece di gruppi di cellule. Questa tecnologia sta crescendo e viene usata in diversi settori di ricerca, comprese varie specie e tessuti. Uno dei principali vantaggi di questo metodo è che aiuta gli scienziati a creare mappe dettagliate dei diversi tipi di cellule presenti in tessuti e organi specifici.
Per comprendere a fondo i diversi tipi di cellule in un determinato tessuto, i ricercatori devono scoprire quali tipi di cellule sono presenti e quali geni sono marcatori per quelle cellule. Questo implica rivedere articoli scientifici o usare database esistenti che elencano questi geni. Ci sono strumenti disponibili, come CellAssign e scCATCH, che aiutano a classificare e annotare questi tipi di cellule basandosi su marcatori noti.
Sono stati creati molti database per fornire informazioni sui marcatori cellulari per diverse specie e tessuti. Questi database compilano geni marcatori delle cellule rivedendo la letteratura scientifica ed estraendo informazioni dagli articoli. Tuttavia, questo processo può richiedere tempo e richiede molto impegno umano.
Il Ruolo del Text Mining nella Ricerca
Per semplificare il processo, sono state usate tecniche di text mining in vari campi per trovare informazioni importanti e comprendere le relazioni tra le diverse entità menzionate negli articoli. Ad esempio, alcuni ricercatori hanno creato modelli linguistici che apprendono da numerosi abstract scientifici per identificare automaticamente le proprietà dei materiali.
Altri approcci hanno sfruttato sistemi pre-addestrati per trovare entità specifiche come malattie, geni e metaboliti nel testo. Dopo aver trovato queste entità, il sistema analizza come si relazionano tra loro, come ad esempio se un certo Gene è legato a una malattia.
In modo simile, alcuni ricercatori hanno sviluppato strumenti di Elaborazione del linguaggio naturale (NLP) per trovare termini medici nelle note cliniche e prevedere punteggi medici rilevanti basati su quei termini.
Lo Sviluppo di MarkerGeneBERT
In questo contesto, MarkerGeneBERT è un nuovo sistema sviluppato che utilizza NLP per estrarre informazioni sui marcatori cellulari e geni dalla letteratura scientifica. Utilizza grandi database di testi biomedici per identificare automaticamente entità cellulari e geniche. Questo sistema migliora il processo di identificazione di relazioni affidabili tra geni e tipi di cellule e lavora anche per ridurre gli errori.
Il sistema inizia il suo processo raccogliendo articoli relativi al sequenziamento a singola cellula ed estraendo frasi pertinenti. Poi verifica l'accuratezza dei marcatori cellulari identificati confrontandoli con database esistenti. MarkerGeneBERT è progettato per gestire un grande volume di testi in modo efficiente e punta a produrre risultati che corrispondano o superino quelli dei database curati manualmente.
Raccolta e Elaborazione dei Dati
Per raccogliere dati, sono stati raccolti circa 20.000 studi da fonti online. Questo è stato fatto utilizzando strumenti di programmazione che hanno permesso un recupero efficiente delle informazioni, inclusi titoli e abstract degli articoli pertinenti. Sezioni chiave di questi articoli, come l'introduzione e i risultati, sono state estratte sistematicamente per ulteriori analisi.
Per identificare le frasi che menzionano sia marcatori cellulari che nomi di geni, è stato creato un modello di addestramento supervisionato usando una collezione di frasi annotate manualmente. Questo modello aiuta a distinguere quali frasi sono pertinenti per identificare le relazioni tra marcatori cellulari.
Sono stati compiuti vari passaggi per preparare il testo per l'analisi, inclusa l'etichettatura delle parti del discorso e la pulizia dei dati per renderli più utili per gli algoritmi di machine learning. Il testo pulito è stato poi usato per addestrare il modello di classificazione.
Estrazione di Entità e Relazioni
Il passo successivo importante ha coinvolto l'estrazione di informazioni su diverse entità menzionate nel testo, come cellule, geni e malattie. Sono stati utilizzati diversi modelli specializzati per identificare queste entità e garantire l'accuratezza.
I marcatori per geni umani e di topo sono stati raccolti da file genici specifici, consentendo un'identificazione accurata dei geni quando menzionati nella letteratura. Per i nomi delle cellule, sono stati applicati più modelli per riconoscere diversi tipi di nomi di cellule menzionati negli articoli. Usando più di un modello, è stata raggiunta una maggiore accuratezza nell'identificazione dei nomi delle cellule.
Inoltre, il sistema ha utilizzato approcci di testo completo per raccogliere informazioni su specie e tipi di tessuto, assicurando che fosse condotta un'analisi completa.
Classificazione delle Relazioni Cellula-Gene
Una volta identificate le frasi contenenti sia nomi di cellule che nomi di geni, sono state analizzate ulteriormente per estrarre coppie affidabili di cellule-gene. Il sistema ha impiegato un'analisi della struttura sintattica per garantire che solo le relazioni supportate da regole grammaticali appropriate fossero considerate valide.
Dopo aver elaborato i testi, ogni frase ha ricevuto un punteggio di probabilità, che indicava se era probabile che contenesse informazioni su un marcatore cellulare. Le frasi al di sopra di una certa soglia di punteggio sono state ulteriormente classificate per estrarre e identificare relazioni significative.
Prestazioni e Validazione
MarkerGeneBERT è stato messo alla prova estraendo circa 4.000 tipi di cellule e circa 20.000 geni da 3.987 articoli. Le prestazioni di questo sistema sono state confrontate con database esistenti che sono stati curati manualmente da esperti. È emerso che i risultati ottenuti tramite MarkerGeneBERT erano competitivi, dimostrando la capacità del sistema di estrarre informazioni preziose in modo efficiente.
Un confronto dettagliato con un database manuale ben noto ha rivelato che MarkerGeneBERT ha riconosciuto un'alta percentuale di entità cellulari e geniche, indicando un buon livello di accuratezza nel suo processo di identificazione.
Coerenza e Miglioramento con MarkerGeneBERT
La coerenza dei tipi di cellule e geni identificati è stata valutata, mostrando un significativo sovrapporsi con i dati curati manualmente. Il sistema ha anche trovato diversi nuovi tipi di cellule, arricchendo la conoscenza esistente e offrendo più opzioni per i ricercatori interessati a tessuti specifici.
Inoltre, il sistema MarkerGeneBERT ha dimostrato la sua affidabilità mostrando un alto livello di accordo nel riconoscimento di specie e tessuti quando confrontato con database manuali. Anche se è stata trovata una certa incoerenza, era per lo più dovuta a differenze nel modo in cui le informazioni sono state raccolte e organizzate.
Conclusione
MarkerGeneBERT offre una soluzione promettente alle sfide incontrate nell'estrazione di geni marcatori cellulari e nella comprensione delle loro relazioni dalla letteratura scientifica. Impiegando tecniche avanzate di text mining, il sistema è in grado di elaborare rapidamente enormi quantità di informazioni mantenendo un alto livello di accuratezza.
Il futuro della ricerca sul sequenziamento a singola cellula beneficerà enormemente di tali innovazioni, permettendo agli scienziati di lavorare in modo più efficiente ed efficace nei loro studi. Man mano che più specie e tipi di tessuto vengono esplorati, sistemi come MarkerGeneBERT giocheranno un ruolo cruciale nello sviluppo continuo della conoscenza in questo campo.
Titolo: A natural language processing system for the efficient extraction of cell markers
Estratto: 1.BackgroundIn the last few years, single-cell RNA sequencing (scRNA-seq) has been widely used in various species and tissues. The construction of the cellular landscape for a given species or tissue requires precise annotation of cell types, which relies on the quality and completeness of existing empirical knowledge or manually curated cell marker databases. The natural language processing (NLP) technique is a potent tool in text mining that enables the rapid extraction of entities of interest and relationships between them by parsing the syntax structure. Methods and resultsWe developed MarkerGeneBERT, an NLP-based system designed to automatically extract information about species, tissues, cell types and cell marker genes by parsing the full texts of the literature from single-cell sequencing studies. As a result, 8873 cell markers of 1733 cell types in 435 human tissues/subtissues and 9064 cell markers of 1832 cell types in 492 mouse tissues/subtissues were collected from 3987 single-cell sequencing-related studies. By comparison with the marker genes of existing manual curated cell marker databases, our method achieved 76% completeness and 75% accuracy. Furthermore, within the same literature, we found 89 cell types and 183 marker genes for which the cell marker database was not available. Finally, we annotated brain tissue single-cell sequencing data directly using the compiled list of brain tissue marker genes from our software, and the results were consistent with those of the original studies. Taken together, the results of this study illustrate for the first time how systematic application of NLP-based methods could expedite and enhance the annotation and interpretation of scRNA-seq data.
Autori: Yimin Sun, P. Cheng, Y. Peng, X. Zhang, S. Chen, B. Fang, Y. Li
Ultimo aggiornamento: 2024-02-02 00:00:00
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2024.01.30.578115
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.01.30.578115.full.pdf
Licenza: https://creativecommons.org/licenses/by-nc/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.