Nouvelles références dans la recherche génétique : une avancée dans les mutations somatiques
Des chercheurs ont développé une nouvelle référence pour étudier les mutations somatiques à basse fréquence en génétique.
Camille A. Daniels, Adetola Abdulkadir, Megan H. Cleveland, Jennifer H. McDaniel, David Jáspez, Luis Alberto Rubio-Rodríguez, Adrián Muñoz-Barrera, José Miguel Lorenzo-Salazar, Carlos Flores, Byunggil Yoo, Sayed Mohammad Ebrahim Sahraeian, Yina Wang, Massimiliano Rossi, Arun Visvanath, Lisa Murray, Wei-Ting Chen, Severine Catreux, James Han, Rami Mehio, Gavin Parnaby, Andrew Carroll, Pi-Chuan Chang, Kishwar Shafin, Daniel Cook, Alexey Kolesnikov, Lucas Brambrink, Mohammed Faizal Eeman Mootor, Yash Patel, Takafumi N. Yamaguchi, Paul C. Boutros, Karolina Sienkiewicz, Jonathan Foox, Christopher E. Mason, Bryan R. Lajoie, Carlos A. Ruiz-Perez, Semyon Kruglyak, Justin M. Zook, Nathan D. Olson
― 11 min lire
Table des matières
- L'Initiative des Instituts Nationaux de la Santé
- Le Bruit autour du Projet Genome in a Bottle
- Le Besoin de Repères
- Le Jeu de Repères Mosaïques
- L'Aventure de l'Appel de variants
- Techniques Utilisées
- L'Importance d'une Haute Couverture
- Les Résultats
- Le Défi des Effets de Lot
- Retours de Validation Externe
- Directions Futures
- Conclusion : Le Trésor de la Recherche Génétique
- Source originale
- Liens de référence
Dans l'étude des génomes humains, les scientifiques cherchent des variations qui peuvent révéler des infos importantes sur la santé et les maladies. Ces variations se divisent en deux grandes catégories : les Variants germinaux et les Mutations somatiques. Les variants germinaux viennent des parents, tandis que les mutations somatiques apparaissent après la conception et ne se transmettent pas à la génération suivante. Pense aux variants germinaux comme des héritages familiaux, alors que les mutations somatiques sont plutôt des cadeaux surprises qui peuvent arriver à l'improviste.
Les variants germinaux peuvent être soit hétérozygotes soit homozygotes. Quand une personne a deux copies différentes d'un gène (une de chaque parent), c'est dit hétérozygote. Si les deux copies sont identiques, c'est homozygote. Les chercheurs se concentrent généralement sur les variants présents dans au moins 50 % ou 100 % des cellules pour ces deux catégories. Cependant, parfois, des variations peuvent survenir dans une fraction plus petite de cellules, ce qui peut compliquer leur détection. Cela se produit parfois à cause d'un phénomène appelé mosaïcisme somatique, où certaines cellules d'un individu ont une composition génétique différente.
Les mutations somatiques sont devenues un sujet brûlant de recherche car elles peuvent entraîner de graves problèmes de santé comme le cancer ou d'autres maladies. Alors que certaines de ces mutations pourraient ne pas causer de dommages, d'autres peuvent mener à une croissance cellulaire incontrôlée. Les chercheurs veulent identifier et mieux comprendre ces mutations pour améliorer le diagnostic et le traitement de diverses conditions.
L'Initiative des Instituts Nationaux de la Santé
Un effort remarquable a été fait par les Instituts Nationaux de la Santé (NIH) pour étudier ces mutations somatiques à travers un programme appelé Somatic Mosaicism across Human Tissues (SMaHT). Cette initiative vise à créer une ressource pour les scientifiques afin d'étudier ces variants à faible fréquence en collectant des données à partir de tissus sains. En établissant un répertoire de variants mosaïques, les chercheurs peuvent accéder à ces infos pour analyser le rôle des mutations somatiques dans les maladies et la santé en général.
Pour surmonter les défis liés à l'identification de ces variations délicates, les scientifiques ont développé diverses méthodes conçues spécifiquement pour détecter les variants à faible fréquence. Donc, au lieu de se contenter des variations faciles à repérer, les chercheurs plongent plus profondément dans la composition génétique des individus pour dénicher des trésors cachés.
Le Bruit autour du Projet Genome in a Bottle
Une des ressources importantes dans ce domaine de recherche est le projet Genome in a Bottle (GIAB), qui fournit des matériaux de référence pour le séquençage génétique. Le programme a produit une collection de génomes de référence à partir de lignées cellulaires lymphoblastoïdes humaines, souvent utilisées pour évaluer et valider des méthodes d'analyse génétique.
Dans leur travail, les scientifiques se concentrent sur les variations ayant un pourcentage d'occurrence plus faible dans les cellules, généralement en dessous de 30 %. Les repères standard insistent surtout sur des variants facilement détectables, ce qui peut faire passer à côté de variations plus subtiles, mais tout aussi importantes, qui peuvent apporter des insights supplémentaires sur des conditions de santé.
Le Besoin de Repères
Pour faire avancer les connaissances et les méthodes liées aux mutations somatiques, les chercheurs recherchent constamment des repères. Ces repères sont des ensembles de variations connues que les chercheurs peuvent utiliser pour confirmer leurs découvertes lorsqu'ils analysent de nouveaux échantillons. Pense à ça comme un livre de recettes pour les scientifiques - ils veulent savoir quels ingrédients (ou variants) sont essentiels pour le plat (ou la compréhension) qu'ils essaient de créer.
Les repères déjà établis se sont concentrés sur des variants à haute confiance et des détails structurellement significatifs, mais il y a un manque quand il s'agit des variants à faible fréquence. Les nouveaux repères proposés aideront les scientifiques à évaluer la précision de leurs méthodes et fourniront un système pour identifier les vrais positifs (variants correctement identifiés) et les faux négatifs (variants manqués).
Le Jeu de Repères Mosaïques
Pour combler cette lacune, les chercheurs ont créé un nouvel ensemble de repères se concentrant sur les variants mosaïques, spécialement d'un individu bien caractérisé de la collection de matériaux de référence GIAB. Le repère consiste en des variants de nucléotides uniques soigneusement sélectionnés (SNVs) qui tombent dans une plage de 5 % à 30 % de fraction d'allèle de variant (VAF). L'équipe a utilisé un processus complexe impliquant des données de séquençage à haute couverture à la fois de l'individu et de ses parents pour identifier les variants mosaïques potentiels existant dans le génome de l'individu.
La collection de variants mosaïques peut servir à plusieurs fins. Par exemple, elles peuvent aider à affiner les méthodes pour détecter les mutations somatiques et fournir une référence pour faire la différence entre vrai et faux variants dans la recherche. Cette ressource sera inestimable pour la communauté scientifique alors qu'elle cherche à comprendre comment ces variations génétiques subtiles contribuent à la santé et à la maladie.
Appel de variants
L'Aventure de l'Dans le monde des tests génétiques, l'appel de variants est comme une chasse au trésor où les chercheurs fouillent des montagnes de données pour trouver des pépites d'infos. Le processus de recherche implique divers outils et techniques pour détecter la présence de variants spécifiques dans les données génétiques. Cependant, quand il s'agit de variants à faible fréquence, les outils doivent être ajustés pour capter les détails qui sont facilement manqués.
Les chercheurs utilisent souvent différentes technologies de séquençage pour examiner les mêmes échantillons, ce qui aide à fournir une vue plus complète de ce qui se passe dans le génome. En analysant des données provenant de différentes plateformes et en comparant les résultats, ils peuvent atteindre un niveau de confiance plus élevé dans leurs découvertes.
Techniques Utilisées
Dans la création du repère mosaïque, les chercheurs ont utilisé une approche basée sur un trio, qui implique l'examen des données génétiques d'un enfant et de ses deux parents. Cela aide à faire la distinction entre les mutations héritées et somatiques. Les chercheurs ont utilisé un outil appelé Strelka2 pour leur analyse, qui est conçu pour appeler les variants somatiques à partir de données de séquençage.
Ils ont pris soin de valider leurs découvertes en utilisant diverses méthodes de séquençage et en s'assurant que les variants identifiés peuvent être soutenus par des données indépendantes. De cette manière, ils peuvent être plus confiants dans la légitimité de leurs repères mosaïques et la précision de leur appel de variants.
L'Importance d'une Haute Couverture
Un aspect essentiel de la génération de données fiables est de s'assurer que la couverture de séquençage est élevée. Une haute couverture signifie que chaque partie du génome est lue plusieurs fois, ce qui augmente la probabilité de détecter de vrais variants et de filtrer le bruit. Les chercheurs ont utilisé ces données à haute couverture pour créer une liste de variants mosaïques potentiels qui se situent dans la plage de VAF souhaitée.
Dans leurs découvertes, ils ont identifié un nombre substantiel de variants mosaïques potentiels. À partir de ce plus grand réservoir, ils se sont concentrés sur les candidats les plus prometteurs adaptés à l'inclusion dans leur référence de repère. En examinant manuellement ces variants et en confirmant leur présence à travers plusieurs sources de données, ils ont affiné leur repère mosaïque final.
Les Résultats
L'ensemble final de repères mosaïques comprend 85 SNVs validés, chacun soigneusement sélectionné pour leurs caractéristiques spécifiques et leur potentiel de pertinence dans la recherche. Ces variants couvrent une grande partie du génome et incluent des régions qui sont souvent difficiles à étudier en raison de leur complexité.
Alors que certains de ces variants se trouvent dans des gènes médicalement pertinents, d'autres offrent des opportunités pour une compréhension plus approfondie des impacts plus subtils sur la santé. Avec le repère mosaïque en place, les chercheurs peuvent évaluer avec fiabilité leurs méthodes d'appel de variants et approfondir leurs recherches sur la manière dont les variants mosaïques contribuent à diverses conditions.
Le Défi des Effets de Lot
Un aspect intéressant de cette recherche est la découverte que les effets de lot peuvent influencer les résultats des analyses génétiques. En comparant différents lots d'ADN, les chercheurs ont constaté des variations dans les profils de VAF, suggérant que les différences dans la manière dont les échantillons sont traités peuvent affecter le résultat de l'identification des variants.
Cette découverte souligne l'importance d'utiliser des matériaux de référence bien caractérisés, car ils fournissent une base stable pour la comparaison. Les chercheurs veulent s'assurer que les données qu'ils analysent reflètent de vraies variations biologiques plutôt que d'être influencées par la manière dont l'échantillon a été préparé ou traité.
Retours de Validation Externe
Pour garantir la fiabilité du repère mosaïque, les chercheurs ont contacté d'autres groupes travaillant sur l'appel de variants somatiques. Ce processus de validation externe a impliqué la comparaison de leurs découvertes avec la version préliminaire du repère mosaïque. En rassemblant des retours et en évaluant les différences, ils ont pu affiner davantage leurs méthodes.
Les résultats de ces évaluations ont confirmé que l'ensemble de repères identifie de manière fiable les faux positifs et négatifs à travers différentes méthodes d'appel de variants. Cette couche supplémentaire de validation renforce la confiance que les chercheurs peuvent avoir en utilisant le repère mosaïque pour de futures études.
Directions Futures
Avec la création du repère mosaïque, les chercheurs peuvent maintenant envisager de nouvelles possibilités dans l'étude des mutations somatiques. Le repère fournit une ressource robuste pour enquêter sur les variants à faible fréquence dans divers contextes, que ce soit dans la recherche contre le cancer ou pour comprendre des maladies complexes.
Les scientifiques sont encouragés à utiliser ce repère pour évaluer leurs propres méthodes, identifier des erreurs potentielles dans l'appel de variants et améliorer leur compréhension du mosaïcisme somatique. En tirant parti des nouveaux repères et ressources créés, les chercheurs peuvent faire des avancées dans la façon dont ils étudient la santé humaine et les maladies associées aux changements génétiques.
Conclusion : Le Trésor de la Recherche Génétique
En résumé, le développement du repère mosaïque représente un pas en avant significatif dans le domaine de la recherche génomique. En fournissant une référence fiable pour les variants à faible fréquence, les chercheurs peuvent plus efficacement enquêter sur les rôles que ces variants jouent dans la santé et la maladie.
Alors que la communauté scientifique continue de dévoiler les secrets cachés dans notre ADN, l'espoir est d'améliorer les diagnostics et les traitements pour une variété de conditions. Donc, bien que la recherche de réponses puisse être pleine de rebondissements, ce nouveau repère est une carte importante qui guide les chercheurs dans leur quête de compréhension des complexités du génome humain. Et qui a dit que les chasses au trésor ne pouvaient pas être amusantes ?
Titre: A robust benchmark for detecting low-frequency variants in the HG002 Genome In A Bottle NIST reference material.
Résumé: Somatic mosaicism is an important cause of disease, but mosaic and somatic variants are often challenging to detect because they exist in only a fraction of cells. To address the need for benchmarking subclonal variants in normal cell populations, we developed a benchmark containing mosaic variants in the Genome in a Bottle Consortium (GIAB) HG002 reference material DNA from a large batch of a normal lymphoblastoid cell line. First, we used a somatic variant caller with high coverage (300x) Illumina whole genome sequencing data from the Ashkenazi Jewish trio to detect variants in HG002 not detected in at least 5% of cells from the combined parental data. These candidate mosaic variants were subsequently evaluated using >100x BGI, Element, and PacBio HiFi data. High confidence candidate SNVs with variant allele fractions above 5% were included in the HG002 draft mosaic variant benchmark, with 13/85 occurring in medically relevant gene regions. We also delineated a 2.45 Gbp subset of the previously defined germline autosomal benchmark regions for HG002 in which no additional mosaic variants >2% exist, enabling robust assessment of false positives. The variant allele fraction of some mosaic variants is different between batches of cells, so using data from the homogeneous batch of reference material DNA is critical for benchmarking these variants. External validation of this mosaic benchmark showed it can be used to reliably identify both false negatives and false positives for a variety of technologies and detection algorithms, demonstrating its utility for optimization and validation. By adding our characterization of mosaic variants in this widely-used cell line, we support extensive benchmarking efforts using it in simulation, spike-in, and mixture studies.
Auteurs: Camille A. Daniels, Adetola Abdulkadir, Megan H. Cleveland, Jennifer H. McDaniel, David Jáspez, Luis Alberto Rubio-Rodríguez, Adrián Muñoz-Barrera, José Miguel Lorenzo-Salazar, Carlos Flores, Byunggil Yoo, Sayed Mohammad Ebrahim Sahraeian, Yina Wang, Massimiliano Rossi, Arun Visvanath, Lisa Murray, Wei-Ting Chen, Severine Catreux, James Han, Rami Mehio, Gavin Parnaby, Andrew Carroll, Pi-Chuan Chang, Kishwar Shafin, Daniel Cook, Alexey Kolesnikov, Lucas Brambrink, Mohammed Faizal Eeman Mootor, Yash Patel, Takafumi N. Yamaguchi, Paul C. Boutros, Karolina Sienkiewicz, Jonathan Foox, Christopher E. Mason, Bryan R. Lajoie, Carlos A. Ruiz-Perez, Semyon Kruglyak, Justin M. Zook, Nathan D. Olson
Dernière mise à jour: 2024-12-05 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.12.02.625685
Source PDF: https://www.biorxiv.org/content/10.1101/2024.12.02.625685.full.pdf
Licence: https://creativecommons.org/publicdomain/zero/1.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://smaht.org/
- https://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/latest/hg38.fa.gz
- https://ftp-trace.ncbi.nlm.nih.gov/ReferenceSamples/giab/data/AshkenazimTrio/HG002_NA24385_son/Element_AVITI_20231018/
- https://github.com/PacificBiosciences/HiFi-human-WGS-WDL
- https://ftp-trace.ncbi.nlm.nih.gov/ReferenceSamples/giab/data/AshkenazimTrio/HG002_NA24385_son/PacBio_HiFi-Revio_20231031/