Nuovo approccio per analizzare i dati di trascrittomica bulk
La deconvoluzione dei tessuti digitali adattivi migliora l'accuratezza nell'analisi dei trascrittomi di massa.
― 7 leggere min
Indice
- L'importanza delle stime dei tipi di cellule
- Limitazioni dei metodi tradizionali
- Introduzione alla Decomposizione Digitale del Tessuto Adattiva (ADTD)
- Il processo di ADTD
- Performance di ADTD rispetto ad altri metodi
- Importanza della regolazione degli iper-parametri
- Applicazioni di ADTD
- Conclusione
- Fonte originale
- Link di riferimento
La trascrittomica bulk è un modo per studiare l'attività genica in un insieme di cellule, piuttosto che in cellule singole. Questo metodo guarda ai modelli complessivi di espressione genica in un campione. Tuttavia, i risultati possono essere confusi dato che mescolano segnali da diversi Tipi di cellule. Se non sappiamo quali cellule sono presenti e in quali quantità, è difficile capire da dove proviene l'attività genica specifica.
Per comprendere meglio questa complessità, sono state sviluppate diverse tecniche per stimare le proporzioni di diversi tipi di cellule in campioni bulk. Alcuni metodi si basano su statistiche tradizionali, mentre altri usano approcci più moderni di machine learning. Recentemente, l'aggiunta della trascrittomica spaziale, che analizza l'espressione genica nel contesto dell'architettura dei tessuti, ha creato un bisogno ancora maggiore di misurazioni accurate dei diversi tipi di cellule.
L'importanza delle stime dei tipi di cellule
Stime accurate dei diversi tipi di cellule sono fondamentali per analisi efficaci dei dati di trascrittomica bulk. Se ci concentriamo solo sull'attività genica totale senza considerare i tipi di cellule sottostanti, rischiamo di trarre conclusioni sbagliate. Ad esempio, in un campione con cellule tumorali e cellule immunitarie, dobbiamo sapere quante cellule di ogni tipo sono presenti per comprendere correttamente i risultati.
Per migliorare le stime della composizione cellulare, i ricercatori hanno proposto metodi diversi che combinano i dati della sequenziamento RNA a singola cellula con i dati di trascrittomica bulk. Questo consente di avere punti di riferimento migliori per capire le proporzioni di vari tipi di cellule in una miscela. Alcune tecniche dipendono dalla creazione di miscele artificiali di cellule con composizioni note per addestrare i modelli in modo efficace.
Limitazioni dei metodi tradizionali
Anche se esistono molti approcci per stimare i tipi di cellule, la maggior parte non considera i contributi sconosciuti di altri tipi di cellule e gli impatti ambientali. I modelli tradizionali potrebbero non riuscire a identificare tutti i diversi tipi di cellule coinvolti, specialmente se alcune mancano dai dati di riferimento usati per l'analisi. Questo è un problema significativo perché rimuovere anche un solo tipo di cellula dal riferimento può ridurre drasticamente l'accuratezza dei risultati.
Inoltre, da dove provengono i profili di riferimento è molto importante. L'ambiente in cui esistono le cellule può influenzare i loro modelli di espressione genica. Pertanto, è fondamentale assicurarsi che i profili di riferimento derivino da condizioni simili a quelle dei campioni bulk in studio.
Introduzione alla Decomposizione Digitale del Tessuto Adattiva (ADTD)
Per superare le sfide presenti nei metodi tradizionali, è stato creato un nuovo approccio chiamato Decomposizione Digitale del Tessuto Adattiva (ADTD). Questo approccio affronta due problemi principali: la presenza di tipi di cellule nascosti e l'influenza dell'ambiente sull'espressione genica.
Stima di sfondo
ADTD inizia costruendo su un metodo precedente noto come Decomposizione Digitale del Tessuto (DTD). Mentre DTD utilizza dati di riferimento esistenti per stimare i tipi di cellule, ADTD va oltre considerando anche i contributi da file di sfondo che potrebbero offuscare i risultati. Questo significa che ADTD cerca tipi di cellule nascosti che potrebbero non essere stati inclusi nei dati di riferimento.
Ad esempio, se abbiamo un campione bulk da un tumore, potremmo essere in grado di identificare le cellule immunitarie presenti, ma questo potrebbe essere influenzato dai segnali delle cellule tumorali. ADTD cerca di separare questi contributi per fornire una visione più chiara di cosa sta succedendo nel campione.
Adattamento dei profili di riferimento
Un'altra caratteristica chiave di ADTD è la sua capacità di adattare i profili di riferimento in base al campione specifico analizzato. Poiché le caratteristiche molecolari delle cellule possono cambiare a seconda del loro ambiente, ha senso avere profili di riferimento che siano flessibili e si adattino al particolare contesto di un campione.
ADTD fa questo riscalando i dati di riferimento in base alle caratteristiche del campione bulk. Questo significa che invece di utilizzare profili di riferimento statici, ADTD crea profili su misura per il campione in questione, aiutando a fornire stime più accurate dei tipi di cellule e delle loro attività.
Il processo di ADTD
ADTD utilizza un approccio sistematico per analizzare i dati di trascrittomica bulk. Questo processo include elaborazione dei dati, addestramento del modello e validazione.
Creazione di miscele artificiali
Per addestrare ADTD in modo efficace, i ricercatori creano miscele artificiali di composizioni cellulari note. Queste miscele possono derivare da dati su tessuti sani o tessuti tumorali. Utilizzando una varietà di dati a singola cellula, i ricercatori possono assicurarsi che un'ampia gamma di tipi di cellule sia rappresentata nei dati di addestramento.
L'obiettivo di creare queste bulks artificiali è mettere a punto il modello in modo che possa stimare con precisione le proporzioni di diversi tipi di cellule in campioni reali.
Validazione di ADTD
Dopo aver addestrato il modello, il passaggio successivo è validarne l'efficacia. Questo comporta testare il modello ADTD con nuove miscele che includono contributi nascosti da tipi di cellule non presenti nei dati di addestramento originali. Misurando quanto bene ADTD riesce a ricostruire le proporzioni conosciute in queste miscele di test, i ricercatori possono valutare la sua accuratezza e affidabilità.
Affinché ADTD funzioni in modo efficace, ha bisogno di un numero sufficiente di campioni. Anche una dimensione del campione modesta può aiutare a produrre stime affidabili se il metodo è robusto.
Performance di ADTD rispetto ad altri metodi
Si è dimostrato che ADTD supera diversi metodi esistenti, come EPIC e CIBERSORT, particolarmente in ambienti dove i contributi nascosti giocano un ruolo significativo. In test in cui sono state utilizzate proporzioni note di diversi tipi di cellule, ADTD ha costantemente dimostrato una migliore accuratezza.
Uno dei vantaggi significativi di ADTD è la sua flessibilità nell'adattarsi a diversi tipi di campioni. Negli esperimenti con tessuti cancerosi, ADTD è riuscito a stimare efficacemente i contributi da tipi di cellule precedentemente non visti, fornendo informazioni che i metodi tradizionali potrebbero perdere.
Importanza della regolazione degli iper-parametri
Quando si utilizza ADTD, i ricercatori devono impostare alcuni iper-parametri che influenzano il funzionamento del modello. Affinché le stime siano accurate, è cruciale trovare il giusto equilibrio tra due iper-parametri. Tuttavia, studi hanno dimostrato che ADTD è relativamente robusto e le sue prestazioni non variano drasticamente con impostazioni diverse di questi parametri.
Questo suggerisce che gli utenti possono adottare valori iniziali dei parametri basati su conoscenze pregresse e vedere comunque risultati di successo, rendendo ADTD facile da usare e adattabile a vari contesti.
Applicazioni di ADTD
ADTD ha un potenziale significativo per l'uso in vari campi, in particolare nella comprensione della biologia del cancro. Analizzando i dati di trascrittomica bulk da campioni di cancro, ADTD può evidenziare attività geniche specifiche ai tipi di cellule che potrebbero informare le strategie di trattamento.
Ad esempio, quando applicato a dati provenienti dal The Cancer Genome Atlas, ADTD può identificare modelli nella regolazione genica tra diversi sottotipi di cancro al seno. Questo tipo di analisi può aiutare i ricercatori a capire come diversi tipi di cellule tumorali interagiscono con le cellule immunitarie, portando potenzialmente a terapie più mirate.
Conclusione
La trascrittomica bulk è uno strumento potente per comprendere l'attività genica tra diversi tipi di cellule. Tuttavia, un'interpretazione accurata di questi dati richiede un'attenta considerazione delle proporzioni cellulari e delle condizioni ambientali.
ADTD rappresenta un significativo avanzamento in quest'area fornendo un approccio adattivo e flessibile che considera i contributi cellulari nascosti e adatta i profili di riferimento in base a campioni specifici. Attraverso un addestramento e una validazione sistematici, ADTD dimostra un'accuratezza migliorata rispetto ai metodi tradizionali, specialmente quando si analizzano campioni complessi come i tumori.
Con l'evoluzione della ricerca, metodi come ADTD svolgeranno un ruolo cruciale nell'estrarre intuizioni significative dai dati di trascrittomica bulk, contribuendo infine allo sviluppo di migliori diagnosi e trattamenti per varie malattie.
Titolo: Adaptive Digital Tissue Deconvolution
Estratto: MotivationThe inference of cellular compositions from bulk and spatial transcriptomics data increasingly complements data analyses. Multiple computational approaches were suggested and recently, machine learning techniques were developed to systematically improve estimates. Such approaches allow to infer additional, less abundant cell types. However, they rely on training data which do not capture the full biological diversity encountered in transcriptomics analyses; data can contain cellular contributions not seen in the training data and as such, analyses can be biased or blurred. Thus, computational approaches have to deal with unknown, hidden contributions. Moreover, most methods are based on cellular archetypes which serve as a reference; e.g., a generic T-cell profile is used to infer the proportion of T-cells. It is well known that cells adapt their molecular phenotype to the environment and that pre-specified cell archetypes can distort the inference of cellular compositions. ResultsWe propose Adaptive Digital Tissue Deconvolution (ADTD) to estimate cellular proportions of pre-selected cell types together with possibly unknown and hidden background contributions. Moreover, ADTD adapts prototypic reference profiles to the molecular environment of the cells, which further resolves cell-type specific gene regulation from bulk transcriptomics data. We verify this in simulation studies and demonstrate that ADTD improves existing approaches in estimating cellular compositions. In an application to bulk transcriptomics data from breast cancer patients, we demonstrate that ADTD provides insights into cell-type specific molecular differences between breast cancer subtypes. Availability and implementationA python implementation of ADTD and a tutorial are available at Gitlab and zenodo (doi:10.5281/zenodo.7548362). [email protected] and [email protected] Supplementary informationSupplementary material is available at Bioinformatics online.
Autori: Michael Altenbuchinger, F. Görtler, M. Mensching-Buhr, O. Skaar, S. Schrod, T. Sterr, A. Schäfer, T. Beissbarth, A. Joshi, H. U. Zacharias, S. N. Grellscheid
Ultimo aggiornamento: 2024-04-11 00:00:00
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2023.02.08.527583
Fonte PDF: https://www.biorxiv.org/content/10.1101/2023.02.08.527583.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.