Simple Science

La science de pointe expliquée simplement

# Biologie# Bioinformatique

Nouvelles notes d'évaluation pour les embeddings de données génomiques

Les chercheurs introduisent des scores pour évaluer la qualité des embeddings de régions génomiques.

― 10 min lire


Évaluation des embeddingsÉvaluation des embeddingsde régions génomiquescompréhension des données génomiques.De nouveaux scores améliorent la
Table des matières

Les régions génomiques sont des parties spécifiques de notre ADN qui ont des fonctions importantes. Ces régions peuvent inclure des éléments comme des amplificateurs, des promoteurs et des sites de liaison pour des protéines qui aident à contrôler l'activation ou la désactivation des gènes. Les scientifiques doivent souvent étudier ces régions pour comprendre comment elles affectent la santé, les maladies et plein de processus biologiques.

L'ADN est organisé en séquences qui peuvent être marquées par des coordonnées pour montrer où chaque région est située. Pour la recherche, beaucoup de ces régions sont stockées dans un format appelé fichiers BED. Les chercheurs utilisent ces fichiers pour représenter des informations issues de différentes expériences, comme celles qui montrent comment les protéines interagissent avec l'ADN.

Récemment, la quantité de données disponibles sur ces régions génomiques a considérablement augmenté, avec près de 100 000 fichiers BED maintenant accessibles pour étude. Cette richesse d'informations a permis aux chercheurs d'en apprendre davantage sur le génome humain, y compris comment différents gènes peuvent varier et être régulés. Cependant, gérer toutes ces données peut être compliqué d'un point de vue informatique. Travailler avec de nombreuses régions génomiques signifie souvent que des calculs complexes sont nécessaires, comme déterminer comment différentes régions se chevauchent.

Pour relever ces défis, les chercheurs ont développé une méthode appelée region-set2vec. Cette méthode permet aux scientifiques de trouver des moyens de représenter des ensembles de régions génomiques en utilisant des nombres plus simples appelés vecteurs. Grâce à ces vecteurs, les chercheurs peuvent analyser les données sans avoir besoin de faire des calculs compliqués qui prennent beaucoup de temps.

Comprendre les Embeddings de Région

La méthode region-set2vec crée des vecteurs représentant des groupes de régions génomiques. D'abord, elle génère des vecteurs individuels pour chaque région génomique en fonction de leur co-occurrence dans les données. Ensuite, ces vecteurs individuels sont moyennés ensemble pour représenter un groupe entier de régions.

En utilisant region-set2vec, les chercheurs peuvent travailler plus efficacement avec les données génomiques. Même sans annotations détaillées, cette méthode peut aider à découvrir des aperçus sur la signification biologique de ces régions. Par exemple, les scientifiques peuvent deviner la fonction d'une région en regardant à quel point elle est similaire à d'autres régions déjà connues pour avoir des rôles spécifiques.

Pour améliorer l'utilité de cette approche, les chercheurs voulaient trouver des moyens de mesurer la qualité de ces vecteurs individuels. Alors qu'il existait des méthodes pour évaluer les vecteurs de groupe, personne n'avait encore trouvé un moyen fiable d'évaluer les vecteurs individuels seuls.

Nouveaux Scores d'Évaluation

Pour combler cette lacune, les scientifiques ont proposé quatre nouveaux scores qui peuvent évaluer la qualité de ces vecteurs de région individuels.

  1. Score de Tendance de Cluster (CTS) : Ce score mesure à quel point les vecteurs peuvent former des clusters. Si les vecteurs sont meilleurs pour le clustering, cela suggère qu'ils contiennent des informations précieuses.

  2. Score de Reconstruction (RCS) : Ce score évalue à quel point un vecteur peut représenter les données originales. Il mesure à quel point les vecteurs peuvent recréer avec précision les motifs trouvés dans les données d'entraînement.

  3. Score d'Échelle de Distance Génomique (GDSS) : Ce score vérifie si les distances entre les vecteurs correspondent aux distances des régions dans le génome réel. Si les régions proches dans l'ADN le sont aussi dans l'espace des vecteurs, cela suggère que les vecteurs capturent des informations biologiques importantes.

  4. Score de Préservation de Voisinage (NPS) : Ce score examine si les régions voisines dans l'ADN sont aussi voisines dans l'espace des vecteurs. Si c'est le cas, cela indique que les vecteurs préservent des relations locales importantes.

Ces scores peuvent être calculés pour n'importe quel ensemble de vecteurs de région, ce qui en fait des outils utiles pour les chercheurs travaillant avec différents types de données génomiques.

Évaluation des Embeddings

Pour tester ces nouveaux scores d'évaluation, les chercheurs ont examiné trois types de vecteurs de région :

  1. Embeddings binaires, qui reflètent directement la présence ou l'absence de régions dans les fichiers.
  2. Embeddings d'analyse en composantes principales (PCA), qui sont créés en réduisant les dimensions des embeddings binaires à moins de composants.
  3. Embeddings Region2Vec, qui sont produits en utilisant la méthode region-set2vec.

En utilisant ces différents types d'embeddings, les chercheurs ont calculé les quatre scores d'évaluation pour voir comment ils se comportaient.

Par exemple, le CTS est plus élevé pour les embeddings qui montrent un clustering clair. Cela signifie que les embeddings qui se regroupent efficacement sont probablement plus utiles que ceux qui sont dispersés. En comparant comment différents types d'embeddings se sont classés sur le CTS, les chercheurs ont pu identifier lesquels étaient meilleurs pour capturer la structure dans les données.

En ce qui concerne le RCS, les embeddings binaires ont mieux performé car ils conservent toutes les informations originales. Cela aide à reconstruire les données originales avec précision. En revanche, les embeddings générés par la méthode region-set2vec peuvent ne pas capturer toutes ces informations en raison de leur complexité, mais ils représentent mieux les relations biologiques.

Le GDSS a montré à quel point les distances des embeddings correspondaient aux distances réelles trouvées dans le génome. Des scores plus élevés sur cette métrique indiquaient que les embeddings parvenaient à refléter des relations biologiques importantes dans les données.

Enfin, le NPS a fourni un aperçu des structures locales des données, permettant aux chercheurs de voir si les relations voisines étaient maintenues dans les embeddings.

Vue d'Ensemble des Données

Pour développer ces scores d'évaluation, les scientifiques ont rassemblé un ensemble représentatif de données régionales. Ils ont collecté 690 fichiers qui détaillent où différentes protéines se lient à l'ADN. Cette collection a formé la base pour générer et tester les nouveaux embeddings régionaux.

Tokenisation des Fichiers BED

Avant de créer les vecteurs de région, les scientifiques ont dû traiter les fichiers BED bruts en un format standardisé. Cette standardisation s'appelle la tokenisation. À travers ce processus, les scientifiques ont créé un ensemble connu sous le nom de "univers", qui contient des régions de consensus bien définies. Chaque région originale est remplacée par les régions de l'univers avec lesquelles elle se chevauche. Si une région ne chevauche aucune dans l'univers, elle est rejetée.

Cela signifie qu'après la tokenisation, les chercheurs ne travaillent qu'avec des régions uniques dans l'univers plutôt qu'avec les régions brutes originales. La tokenisation simplifie les données, rendant l'apprentissage plus facile.

Génération des Embeddings

Les scientifiques ont utilisé trois méthodes différentes pour créer des embeddings régionaux :

  1. Embeddings binaires : Ceux-ci sont simples et basés directement sur les fichiers BED tokenisés. Chaque vecteur est un indicateur de la présence d'une région.

  2. Embeddings PCA : Ces embeddings sont créés en appliquant une technique mathématique appelée analyse en composantes principales aux embeddings binaires. L'analyse réduit la dimensionalité du vecteur binaire tout en conservant autant d'informations que possible.

  3. Embeddings Region2Vec : Cette méthode implique de randomiser l'ordre des régions et d'utiliser une technique de fenêtre glissante pour créer des prédictions basées sur le contexte. Cela aide le modèle à apprendre des représentations significatives des régions génomiques.

Métriques d'Évaluation

Les chercheurs ont ensuite calculé les quatre scores d'évaluation pour ces embeddings afin de voir comment ils se comportaient.

Score de Tendance de Cluster (CTS)

Le CTS a été calculé en échantillonnant les embeddings et en mesurant à quel point ils pouvaient former des clusters. Des scores plus élevés indiquaient une forte tendance des points d'embedding à se regrouper, ce qui est considéré comme une caractéristique positive.

Score de Reconstruction (RCS)

Le RCS a été déterminé en créant un modèle de régression pour prédire les données originales à partir des embeddings. La performance de ce modèle a fourni un aperçu de la manière dont les embeddings ont conservé des informations essentielles.

Score d'Échelle de Distance Génomique (GDSS)

Pour calculer le GDSS, les chercheurs ont examiné des paires d'embeddings régionaux et ont comparé leurs distances d'embedding avec leurs distances génomiques réelles. Une relation claire entre ces distances indiquerait que les embeddings ont capturé des informations biologiques importantes.

Score de Préservation de Voisinage (NPS)

Le NPS a été calculé en examinant le chevauchement des régions voisines dans le génome et comment ces relations étaient préservées dans l'espace d'embedding. Des ratios de chevauchement élevés indiquaient une bonne performance.

Observations Issues des Scores

Après avoir calculé les scores pour les différents types d'embeddings, les chercheurs ont noté diverses tendances.

Les embeddings binaires ont systématiquement obtenu de bons scores sur le RCS car ils préservaient le plus d'informations. En revanche, les embeddings Region2Vec ont excellé dans les catégories CTS et NPS, indiquant qu'ils formaient de bons clusters et maintenaient des relations locales dans les données.

Pour ce qui est du GDSS, les scores variaient considérablement selon les différents embeddings, montrant que certaines approches fonctionnaient mieux que d'autres pour capturer des relations biologiques.

Aperçus de l'Évaluation

Les résultats ont permis aux chercheurs de tirer plusieurs conclusions sur la qualité des différents embeddings.

  1. Pour des tâches axées sur la capacité de clustering, il faut sélectionner des embeddings avec un CTS élevé.
  2. Si la préservation de l'information originale est cruciale, alors il faut privilégier les embeddings avec un RCS élevé.
  3. Les scores GDSS et NPS offrent un aperçu de la qualité des embeddings dans la capture des signaux biologiques importants.

En utilisant ce cadre d'évaluation complet, les chercheurs peuvent faire de meilleurs choix sur les embeddings à utiliser dans leurs études des régions génomiques.

Conclusion

L'introduction des quatre nouveaux scores d'évaluation fournit un outil précieux pour évaluer les embeddings de régions génomiques. Chaque score offre une perspective différente sur la qualité des embeddings créés à partir de différentes méthodes.

En examinant les embeddings générés par des méthodes comme region-set2vec, les scientifiques peuvent tirer des aperçus sur la manière dont ces embeddings reflètent les structures et les relations biologiques. Cela aide à choisir les meilleures représentations pour analyser les données génomiques, menant finalement à une meilleure compréhension des processus biologiques et potentiellement à des recherches médicales.

La capacité d'évaluer et de sélectionner avec précision des embeddings de qualité améliorera l'analyse des données génomiques et soutiendra des recherches plus efficaces dans divers domaines, y compris la génétique, l'épigénomique et la médecine personnalisée.

Source originale

Titre: Methods for evaluating unsupervised vector representations of genomic regions

Résumé: Representation learning models have become a mainstay of modern genomics. These models are trained to yield vector representations, or embeddings, of various biological entities, such as cells, genes, individuals, or genomic regions. Recent applications of unsupervised embedding approaches have been shown to learn relationships among genomic regions that define functional elements in a genome. Unsupervised representation learning of genomic regions is free of the supervision from curated metadata and can condense rich biological knowledge from publicly available data to region embeddings. However, there exists no method for evaluating the quality of these embeddings in the absence of metadata, making it difficult to assess the reliability of analyses based on the embeddings, and to tune model training to yield optimal results. To bridge this gap, we propose four evaluation metrics: the cluster tendency score (CTS), the reconstruction score (RCS), the genome distance scaling score (GDSS), and the neighborhood preserving score (NPS). The CTS and RCS statistically quantify how well region embeddings can be clustered and how well the embeddings preserve information in training data. The GDSS and NPS exploit the biological tendency of regions close in genomic space to have similar biological functions; they measure how much such information is captured by individual region embeddings in a set. We demonstrate the utility of these statistical and biological scores for evaluating unsupervised genomic region embeddings and provide guidelines for learning reliable embeddings. AvailabilityCode is available at https://github.com/databio/geniml

Auteurs: Nathan C. Sheffield, G. Zheng, J. Rymuza, E. Gharavi, N. J. LeRoy, A. Zhang

Dernière mise à jour: 2024-05-09 00:00:00

Langue: English

Source URL: https://www.biorxiv.org/content/10.1101/2023.08.28.555137

Source PDF: https://www.biorxiv.org/content/10.1101/2023.08.28.555137.full.pdf

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires