Transformer le SRA : Le jeu de données Logan
Le projet Logan rend les données SRA plus accessibles et utilisables pour la recherche.
― 8 min lire
Table des matières
- Les Défis d'Accès au SRA
- Le Besoin de Transformation
- Comment Fonctionne le Processus d'Assemblage
- Résultats de l'Assemblage
- Comparaison du Jeu de Données Logan avec d'Autres
- Alignement des Séquences dans le SRA
- Sélection des Données d'Entrée
- Outils d'Assemblage Utilisés
- Infrastructure Cloud pour l'Assemblage
- Qualité et Évaluation des Données
- Directions Futures
- Source originale
- Liens de référence
L'Archive de Lectures de Séquences (SRA) est la plus grande collection de séquences d'ADN et d'ARN. En décembre 2023, elle contient environ 50 pétaoctets d'infos brutes de séquençage, ce qui donne environ 20 pétaoctets quand c'est compressé. C'est beaucoup plus gros que GenBank, une autre grosse base de données pour les données biologiques. À cause de sa taille immense, télécharger toutes les données du SRA avec une connexion internet rapide prendrait environ six mois. La plupart des institutions ne peuvent pas gérer ce volume localement, ce qui limite leur Accès à seulement de petites parties du SRA.
Le SRA contient plein d'infos génomiques, incluant des échantillons de projets humains, des lignées cellulaires, des échantillons environnementaux et des séquences virales. Certaines études ont examiné des groupes spécifiques du SRA pour en apprendre plus sur certains organismes. Par exemple, une étude a découvert beaucoup plus d'espèces virales ARN que ce qu'on connaissait en analysant des données d'avant 2020. D'autres outils fournissent des aperçus taxonomiques et peuvent chercher des organismes spécifiques dans des sous-ensembles du SRA.
Les Défis d'Accès au SRA
À cause de sa taille, trouver des infos spécifiques dans le SRA peut être galère. Certains groupes ont bossé sur des méthodes pour chercher dans le SRA de manière plus efficace. Une méthode utilisait des ressources cloud puissantes pour traiter des données ARN, mais ça prenait plusieurs jours pour chaque recherche. D'autres méthodes ont été développées pour filtrer des parties du SRA pour des échantillons spécifiques.
Plusieurs bases de données donnent aussi accès à des séquences génomiques assemblées basées sur les données du SRA. Tandis que certaines en ont moins, le SRA contient plus de 27 millions d'accés, écrasant ces autres collections.
Le Besoin de Transformation
Étant donné que le SRA est trop gros pour être exploré entièrement dans son état actuel, un gros changement est nécessaire pour rendre les données plus utilisables. Un nouveau projet a été lancé pour rassembler des données à travers tout le SRA en utilisant des ressources cloud efficaces. En traitant les données brutes, ils ont créé des séquences assemblées qui sont plus courtes et ont réduit la taille globale des données. Ce projet a donné naissance à un nouveau jeu de données, Logan, qui rend les recherches de séquences à travers le SRA plus abordables et gérables.
Comment Fonctionne le Processus d'Assemblage
L'équipe a créé une infrastructure cloud pour faire l'assemblage à grande échelle des données du SRA. Chaque séquence a été traitée individuellement dans un flux de travail systématique. D'abord, les lectures ont été téléchargées depuis le SRA, puis assemblées en séquences plus courtes appelées Unitigs et en séquences plus longues appelées Contigs. Ces séquences ont ensuite été compressées et stockées dans un endroit public pour que les autres puissent y accéder.
Avec ce système, ils ont réussi à terminer l'assemblage du génome pour des millions d'accés. Le temps de traitement total a été d'environ 30 millions d'heures CPU.
Résultats de l'Assemblage
L'assemblage a produit deux types de résultats : les unitigs et les contigs. Les contigs sont des séquences plus longues qui représentent le consensus des informations génomiques trouvées dans les lectures. Les unitigs sont des séquences plus courtes dérivées des contigs et incluent des séquences additionnelles qui apparaissaient plusieurs fois dans les lectures.
En décembre 2023, ils avaient assemblé plus de 27 millions d'accés en unitigs, représentant environ 96 % de la taille totale du SRA. De plus, environ 26,8 millions d'accés ont été assemblés en contigs, représentant environ 88 % de la taille totale du SRA.
Comparaison du Jeu de Données Logan avec d'Autres
Le jeu de données assemblé, Logan, est le plus gros ensemble de séquences assemblées du SRA à ce jour. Il est nettement plus grand que d'autres bases de données de séquences assemblées. Bien que des efforts précédents pour indexer le SRA aient donné des résultats utiles, le jeu de données Logan est d'un ordre de grandeur supérieur, en faisant une ressource substantielle pour les chercheurs.
Alignement des Séquences dans le SRA
Le jeu de données Logan a aussi été utilisé pour l'alignement de séquences contre divers cibles. Une base de données a été créée à partir de séquences virales connues et de marqueurs génétiques spécifiques. En alignant les contigs de Logan contre cette base de données de référence, les chercheurs ont pu rassembler une richesse d'infos sur la présence de séquences spécifiques dans les accés du SRA.
Cet alignement a révélé de nouvelles données sur la diversité virale. Par exemple, le projet a détecté beaucoup plus de cas de certains virus dans les accés que ce que des efforts précédents avaient trouvé. Cette connaissance élargie pourrait mener à une meilleure compréhension de la distribution de ces organismes dans différents environnements.
Sélection des Données d'Entrée
Pour créer le jeu de données Logan, l'équipe a sélectionné des échantillons du SRA qui étaient rendus publics au 10 décembre 2023. Ils se sont concentrés sur des échantillons avec des longueurs de lecture supérieures à 31 paires de bases pour assurer leur utilité dans le processus d'assemblage.
Outils d'Assemblage Utilisés
Pour construire les unitigs et les contigs, ils ont utilisé des outils spécifiques connus pour leur efficacité et leur faible consommation de mémoire. Ces outils ont aidé à construire les séquences et à réduire les erreurs dans l'assemblage.
Les chercheurs ont utilisé une version modifiée d'un outil d'assemblage existant qui leur a permis d'estimer les quantités de certaines séquences dans les données. Ils ont également utilisé un deuxième outil pour créer les contigs à partir des unitigs et ont filtré les séquences plus courtes qui étaient susceptibles d'être des erreurs.
Infrastructure Cloud pour l'Assemblage
L'assemblage a été réalisé en utilisant une infrastructure basée sur le cloud. Ce système a permis le traitement simultané de nombreux accés SRA, rendant l'ensemble du processus d'assemblage rapide et efficace. L'architecture cloud était composée de différentes parties qui travaillaient ensemble pour gérer les grandes quantités de données.
En utilisant Amazon Web Services, l'équipe a exécuté des conteneurs sur de nombreux ordinateurs cloud. Des tableaux de bord spécialisés ont été mis en place pour suivre le progrès et s'assurer que l'exécution se passait bien.
Qualité et Évaluation des Données
Après l'assemblage, plusieurs métriques standard ont été utilisées pour évaluer la qualité des résultats. Cela incluait le comptage du nombre d'unitigs et de contigs, la mesure de leurs longueurs et la vérification de la taille des fichiers compressés. Les infos collectées ont été stockées dans une base de données et mises à disposition pour des recherches futures.
Bien que la plupart des séquences aient été correctement assemblées, un petit problème a été noté avec certaines séquences qui ont été incorrectement marquées comme circulaires. Malgré cette erreur, les informations contenues dans le jeu de données Logan restent biologiquement précieuses.
Directions Futures
Le jeu de données Logan contient une richesse d'infos qui peuvent être explorées davantage. Les chercheurs peuvent utiliser ces données pour mener des études plus détaillées sur une variété d'organismes. En continuant d'analyser les séquences assemblées, les scientifiques peuvent élargir leur compréhension de la diversité génétique et des relations entre différentes espèces.
Conclusion
Le projet Logan représente une avancée significative dans la capacité d'accéder et d'analyser des données du SRA. Bien que le jeu de données original soit trop volumineux pour être géré entièrement, le transformer en un format plus gérable permet aux chercheurs de poursuivre de nouvelles avenues d'exploration. Ce jeu de données non seulement facilite la recherche à travers de vastes quantités de données, mais ouvre aussi la porte à des études plus complètes sur la diversité biologique.
Titre: Logan: Planetary-Scale Genome Assembly Surveys Life's Diversity
Résumé: The NCBI Sequence Read Archive (SRA) is the largest public repository of DNA sequencing data, containing the most comprehensive snapshot of Earths genetic diversity to date. As its size exceeds 50.0 petabases across >27 million sequencing datasets, the entirety of these data cannot be searched for genetic sequences of interest in a reasonable time. To drastically increase the accessibility of this data we perform genome assembly over each SRA dataset using massively parallel cloud computing. The resulting Logan assemblage is the largest dataset of assembled sequencing data to date, and we believe will enable a new-era of accessible petabase-scale computational biology inquiry. We provide free and unrestricted access to the Logan assemblage and disseminate these datasets to foster early adoption. To illustrate the usefulness of Logan we align a diverse set of sequence queries across all of the SRA, completing queries in as little as 11 hours.
Auteurs: Rayan Chikhi, B. Raffestin, A. Korobeynikov, R. C. Edgar, A. Babaian
Dernière mise à jour: 2024-07-31 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.07.30.605881
Source PDF: https://www.biorxiv.org/content/10.1101/2024.07.30.605881.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.