Simple Science

Scienza all'avanguardia spiegata semplicemente

# La biologia# Genomica

Sviluppi nella valutazione della tossicità usando l'IA

Gli strumenti di intelligenza artificiale migliorano le previsioni sui dati di tossicità per la salute pubblica.

― 10 leggere min


AI nella ValutazioneAI nella Valutazionedella Tossicitàsui dati di tossicità.L'IA riempie i vuoti nelle previsioni
Indice

La valutazione della Tossicità è il processo per testare come le sostanze, come i chimici o i farmaci, influenzano gli organismi viventi. Capire la tossicità è fondamentale per garantire la salute pubblica e la sicurezza. Negli anni, gli scienziati hanno ideato vari metodi per valutare la tossicità, dai test di laboratorio tradizionali a tecniche più recenti che utilizzano tecnologie avanzate come la tossicogenomica.

La sfida dei dati limitati

Uno dei principali ostacoli nello sviluppo di nuovi metodi di valutazione della tossicità è la disponibilità limitata di dati. Questo significa che non ci sono abbastanza risultati o scoperte per capire come diverse sostanze influenzano diverse parti del corpo. Senza dati adeguati, è difficile per i ricercatori fare valutazioni accurate.

Qui entra in gioco il progetto DrugMatrix. DrugMatrix funge da risorsa integrata di dati che combina dati storici su endpoint tossicologici tradizionali con dati provenienti da approcci più recenti. Raccoglie informazioni da studi che analizzano sia gli effetti dei chimici su vari organi sia come i geni rispondono a queste sostanze.

Cos'è DrugMatrix?

DrugMatrix è un database significativo che include informazioni da studi condotti su ratti per capire come diversi chimici influenzano la loro salute. Copre oltre 600 chimici diversi e include dati su vari tessuti come fegato, reni, cuore e cervello. L'obiettivo è fornire una visione completa di come i chimici impattano sui diversi sistemi biologici.

Il database utilizza due tecnologie diverse per analizzare l'Espressione genica: la piattaforma CodeLink e la piattaforma Affymetrix. Mentre la piattaforma CodeLink offre una gamma più ampia di tessuti analizzati, la piattaforma Affymetrix è ancora molto utilizzata oggi. La maggior parte degli studi in DrugMatrix combina dati di espressione genica con misurazioni di patologia clinica standard, fornendo un quadro completo degli effetti tossici.

Nonostante la ricchezza di dati in DrugMatrix, circa l'88% degli endpoint potenziali è ancora assente. Questo significa che ci sono molte lacune nelle informazioni attualmente disponibili, specialmente riguardo ai tessuti che non mostrano danni visibili da esposizione chimica.

Usare l'Intelligenza Artificiale per colmare le lacune nei dati

Per affrontare il problema dei dati mancanti, i ricercatori stanno ora applicando tecniche di intelligenza artificiale (AI) e di apprendimento automatico. Questi metodi possono aiutare a stimare o prevedere gli endpoint mancanti basandosi sulle informazioni esistenti in DrugMatrix.

Un approccio innovativo prevede l'uso di tecniche come L1000 e S1500+, che possono estrapolare dati da un numero limitato di geni per creare un profilo più completo dell'espressione genica. Questo è simile all'utilizzo di informazioni parziali per inferire un quadro completo del patrimonio genetico di una persona.

Più di recente, sono emersi metodi avanzati di AI, come le Reti Neurali Avversarie Generative (GAN). Questi metodi possono analizzare più fattori, come il tipo di chimico, l'organo colpito e la dose, per prevedere l'espressione genica in tutto il genoma.

Affrontare il problema dei segnali rari

Anche se queste tecniche di AI possono migliorare le previsioni, rimane un problema: la perdita di segnali rari ma importanti durante il completamento dei dati. Molti segnali critici nei dati di tossicità sono rari, rendendoli difficili da prevedere con precisione. Ad esempio, valori positivi nell'espressione genica indicano sovra-espressione, mentre valori negativi suggeriscono sotto-espressione.

Categorie rare, che potrebbero contenere informazioni essenziali sugli effetti chimici, spesso vengono trascurate. Per migliorare le previsioni per queste categorie rare, i ricercatori stanno utilizzando tecniche di campionamento ibride. Queste tecniche danno maggiore importanza alla previsione di categorie rare, permettendo al modello di apprendere meglio e ottenere risultati più accurati.

L'approccio ToxiCompl

I ricercatori hanno sviluppato un metodo chiamato ToxiCompl per prevedere meglio i dati tossici mancanti in DrugMatrix. ToxiCompl incorpora metodologie di campionamento ibride, consentendo al modello di concentrarsi su segnali importanti ma rari, mantenendo comunque l'accuratezza generale.

Il metodo inizia assicurandosi che i dati esistenti siano sufficienti per fare previsioni accurate. Poi utilizza tecniche di completamento delle matrici per colmare le lacune. L'obiettivo è creare un dataset completo che possa essere più utile per studi tossicologici futuri senza la necessità di condurre ulteriori test sugli animali.

Validare le previsioni di ToxiCompl

Per garantire che le previsioni fatte da ToxiCompl siano accurate, i ricercatori utilizzano due metodi standard di validazione. Il primo metodo prevede di tenere da parte una piccola porzione dei dati esistenti per testare quanto bene le previsioni corrispondano ai valori reali. Il secondo metodo include l'esame dei dati previsti da una prospettiva biologica, cercando schemi e relazioni tra le espressioni geniche.

Nel loro studio, ToxiCompl ha raggiunto risultati impressionanti. Ha mostrato un basso tasso di errore nella previsione dei livelli di espressione genica e un'alta accuratezza nell'identificazione delle categorie rilevanti. I ricercatori hanno anche convalidato le previsioni di ToxiCompl contro marcatori tossicologici noti, portando a una migliore comprensione di come le tossine influenzano diversi tessuti.

La struttura dei dati in DrugMatrix

Quando hanno organizzato i dati di DrugMatrix in un formato strutturato, i ricercatori hanno scoperto che ci sono circa 193.000 righe e 3.000 colonne. Ogni riga rappresenta un gruppo di trattamento individuale, che include informazioni sul chimico, dosaggio e durata dell'esposizione. Le colonne, d'altra parte, rappresentano diversi tipi di misurazioni, come l'espressione genica, chimica clinica e istopatologia.

Ci sono diverse categorie di dati, tra cui istopatologia, chimica clinica e ematologia. Ad esempio, nella categoria dell'espressione genica, i dati sono presentati come rapporti di campioni trattati rispetto ai campioni di controllo. Tuttavia, i dati sono distribuiti in modo irregolare, con un focus significativo sul fegato e sui reni, rispetto ad altri tessuti.

Tecniche di completamento delle matrici

I ricercatori utilizzano tecniche di completamento delle matrici per ricostruire le parti mancanti del dataset di DrugMatrix. Credono che la maggior parte della matrice possa essere completata con successo perché si presume sia a basso rango. Questo significa che ci sono schemi e connessioni sottostanti nei dati che i metodi di completamento delle matrici possono estrarre.

Per fare questo, utilizzano tecniche come Funk-SVD, che fattorizza la matrice in due matrici separate che possono essere apprese dalle voci osservate. Questo approccio consente loro di prevedere voci mancanti basandosi sulle relazioni tra le righe e le colonne nella matrice originale.

Migliorare le previsioni concentrandosi su categorie rare

Dato che molti segnali essenziali nei dati sono rari, i ricercatori mirano a migliorare le loro previsioni per queste categorie. Applicare semplicemente tecniche di completamento delle matrici standard spesso porta a un fallimento nel catturare segnali importanti ma poco frequenti.

Per affrontare questo problema, esplorano tecniche di over-sampling e under-sampling. L'over-sampling significa duplicare i punti dati in categorie meno comuni per raggiungere un dataset più bilanciato. L'under-sampling, d'altra parte, implica rimuovere casualmente punti dalle categorie più comuni.

Attraverso esperimenti, hanno scoperto che entrambi gli approcci hanno migliorato la previsione di segnali rari nel dataset. Utilizzando il campionamento ibrido, hanno combinato entrambi i metodi per migliorare le prestazioni complessive mantenendo l'accuratezza del modello.

Usare l'ottimizzazione Bayesiana per un campionamento ottimale

Invece di scegliere manualmente le distribuzioni di campionamento, i ricercatori si sono rivolti all'ottimizzazione bayesiana. Questa tecnica aiuta a trovare la migliore distribuzione di campionamento che massimizza il punteggio F1 medio, un'importante metrica per valutare le prestazioni del modello.

Attraverso test iniziali con varie distribuzioni, hanno identificato una distribuzione che ha migliorato significativamente le prestazioni. Questo metodo non solo ha aumentato l'accuratezza predittiva, ma ha anche assicurato che il modello mantenesse un equilibrio tra la previsione di categorie rare e le prestazioni complessive del metodo di completamento delle matrici.

Prevedere i dati continui di DrugMatrix

Dopo aver migliorato le prestazioni del metodo ToxiCompl utilizzando dati categoriali, i ricercatori hanno esplorato l'uso di dati continui in DrugMatrix. Questo ha comportato la combinazione di valori sia categoriali che continui, consentendo loro di mantenere quante più informazioni possibile.

Sfruttando le intuizioni raccolte dai dati categoriali, il modello aggiornato ha mantenuto le sue prestazioni predittive e ha riempito accuratamente le lacune rimaste nel dataset continuo.

Approcci alternativi per la previsione dei dati

Oltre a usare ToxiCompl, i ricercatori hanno esplorato anche metodi alternativi per prevedere i dati mancanti in DrugMatrix. Ad esempio, hanno sperimentato con le foreste casuali, che implicano l'uso di alberi decisionali per fare previsioni basate sugli input. Tuttavia, questi metodi non hanno eguagliato le prestazioni di ToxiCompl.

Hanno anche considerato l'uso di reti neurali profonde, che consistono in più strati connessi per elaborare i dati. Sebbene questi metodi abbiano performato meglio delle foreste casuali, sono comunque risultati inferiori rispetto a ToxiCompl.

Reti neurali grafiche per la tossicogenomica

Un'altra strada che i ricercatori hanno considerato è stata l'uso delle Reti Neurali Grafiche (GNN). Le GNN possono modellare relazioni complesse tra vari elementi nei dati, rendendole uno strumento potente per affrontare dataset tossicologici. Tuttavia, applicare le GNN a DrugMatrix presenta sfide a causa della complessità della struttura dei dati.

Le ricerche future si concentreranno sull'applicazione di queste tecniche avanzate per trovare nuove intuizioni e migliorare le previsioni nella tossicogenomica.

Validazione e caratterizzazione biologica

Per garantire che i dati previsti producano risultati affidabili e significativi, i ricercatori hanno condotto varie tecniche di validazione. Hanno esaminato i modelli di connettività per vedere come i dati previsti si allineano con gli effetti noti nei dataset misurati. Confrontando i risultati previsti con meccanismi biologici noti, hanno valutato l'accuratezza delle previsioni.

Inoltre, hanno eseguito analisi dei percorsi per capire quali percorsi biologici sono stati influenzati dai chimici trattati. Questo ha comportato l'esplorazione di liste di geni e la determinazione se ci fosse coerenza con percorsi noti.

Identificazione dei biomarker trascrizionali

I ricercatori hanno investigato i dati previsti per potenziali biomarker trascrizionali. Questi marcatori indicano specifiche risposte biologiche alle tossine, fornendo intuizioni su come tessuti diversi sono influenzati.

Esaminando i cambiamenti nell'espressione genica, hanno trovato alcune risposte previste che si sono allineate bene con composti tossici noti. Questo ha dato loro fiducia che il modello predittivo catturasse efficacemente gli effetti biologici dell'esposizione a sostanze nocive.

Il ruolo del Complete DrugMatrix

Il Complete DrugMatrix funge da piattaforma online per i ricercatori per accedere e analizzare i dati. Consente agli utenti di cercare trattamenti specifici, visualizzare i dati di espressione genica e confrontare risultati previsti e misurati.

Questo strumento aiuta a migliorare l'esperienza dell'utente, fornendo un mezzo per esplorare i dati, trarre conclusioni sulla potenziale tossicità e trovare intuizioni rilevanti per ricerche future.

Conclusione e direzioni future

Capire la tossicità è essenziale per la salute pubblica e la sicurezza. Il progetto DrugMatrix evidenzia l'importanza di integrare i dati tossicologici tradizionali con la tossicogenomica per fornire una visione completa di come le sostanze influenzano gli organismi.

Attraverso lo sviluppo di ToxiCompl, i ricercatori hanno dimostrato che tecniche di AI e di apprendimento automatico possono colmare efficacemente le lacune nei dati. Questo ha il potenziale per migliorare gli studi tossicologici futuri senza la necessità di condurre ulteriori test sugli animali.

Mentre i ricercatori continuano a esplorare nuovi metodi, come le reti neurali grafiche e altre tecniche avanzate, mirano a scoprire ulteriori intuizioni sulle complesse relazioni tra sostanze chimiche e sistemi biologici.

Gli sforzi continui per convalidare le previsioni e migliorare i modelli utilizzando varie fonti di dati non solo miglioreranno ulteriormente il database di DrugMatrix, ma potrebbero anche portare a significativi progressi nella comprensione degli effetti biologici delle sostanze chimiche nel tempo.

Fonte originale

Titolo: Completion of the DrugMatrix Toxicogenomics Database using ToxCompl

Estratto: The DrugMatrix Database contains systematically generated toxicogenomics data from short-term in vivo studies for over 600 chemicals. However, most of the potential endpoints in the database are missing due to a lack of experimental measurements. We present our study on leveraging matrix factorization and machine learning methods to predict the missing values in the DrugMatrix, which includes gene expression across eight tissues on two expression platforms along with paired clinical chemistry, hematology, and histopathology measurements. One major challenge we encounter is the skewed distribution of the available measured data, in terms of both tissue sources and values. We propose a method, ToxiCompl, that applies systematic hybrid sampling guided by Bayesian optimization in conjunction with low-rank matrix factorization to recover the missing values. ToxiCompl achieves good training and validation performance from a machine learning perspective. We further conduct an in-depth validation of the predicted data from biological and toxicological perspectives with a series of analyses. These include examining the connectivity pattern of predicted gene expression responses, characterizing molecular pathway-level responses from sets of differentially expressed genes, evaluating known transcriptional biomarkers of tissue toxicity, and characterizing pre-dicted apical endpoints. Our analysis shows that the predicted differential gene expression, broadly speaking, aligns with what would be anticipated. For example, in most instances, our predicted differentially expressed gene lists offer a connectivity level comparable to that of measured data in connectivity analysis. Using Havcr1, a known transcriptional biomarker of kidney injury, we identify treatments that, based on the predicted expression data, manifest kidney toxicity in a manner that is mechanistically plausible and supported by the literature. Characterization of the predicted clinical chemistry data suggests that strong effects are relatively reliably predicted, while more subtle effects pose a greater challenge. In the case of histopathological prediction, we find a significant overprediction due to positivity bias in the measured data. Developing methods to deal with this bias is one of the areas we plan to target for future improvement. The main advantage of the ToxiCompl approach is that, in the absence of additional experimental data, it drastically extends the toxicogenomic landscape into a number of data-poor tissues, thereby allowing researchers to formulate mechanistic hypotheses about effects in tissues that have been underrepresented in the literature. All measured and predicted DrugMatrix data (i.e., gene expression, clinical chemistry, hematology, and histopathology) are available to the public through an intuitive GUI interface that allows for data retrieval, gene set analysis and high dimensional visualization of gene expression similarity (https://rstudio.niehs.nih.gov/complete_drugmatrix/).

Autori: Scott Sean Auerbach, G. Cong, R. M. Patton, F. Chao, D. L. Svoboda, W. M. Casey, C. P. Schmitt, C. Murphy, J. N. Erickson, P. Combs

Ultimo aggiornamento: 2024-04-03 00:00:00

Lingua: English

URL di origine: https://www.biorxiv.org/content/10.1101/2024.03.26.586669

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.03.26.586669.full.pdf

Licenza: https://creativecommons.org/publicdomain/zero/1.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili