Simple Science

La science de pointe expliquée simplement

# Biologie# Bioinformatique

Faire avancer l'analyse des CNV rares en génétique

Un nouvel outil améliore l'étude des CNV rares dans la recherche sur la santé.

― 8 min lire


Nouvel outil pour les CNVNouvel outil pour les CNVraresles études de santé.Analyse simplifiée des CNV rares dans
Table des matières

La variation du nombre de copies (CNV) fait référence à des changements dans le nombre de copies d'une section particulière de l'ADN. Ces changements peuvent impliquer soit la suppression, soit la duplication de parties de chromosomes qui sont plus grandes que 1 000 paires de bases. Les CNVs sont importants parce qu'ils contribuent aux différences génétiques entre les individus et jouent un rôle dans divers problèmes de santé complexes, notamment les problèmes de santé mentale, les troubles du développement et différents types de cancer.

Certaines grandes CNVs, qui font plus de 1 000 kilobases, sont associées à des conditions de santé rares, et elles peuvent également être impliquées dans des maladies polygéniques plus courantes. Des méthodes high-tech, connues sous le nom de puces à polymorphisme d'un seul nucléotide (SNP), permettent aux chercheurs d'étudier ces variations à travers tout le génome.

L'Importance d'Étudier les CNV

Beaucoup de chercheurs ont examiné les CNVs rares en utilisant des techniques spécialisées, comme le génotypage basé sur micro-array, qui fournit des informations détaillées sur les variations génétiques. Ces études nécessitent souvent une série d'étapes complexes, y compris l'analyse des données, la sélection du bon logiciel, l'ajustement des paramètres et la documentation des processus. Des résultats réussis dépendent fortement de l'automatisation et d'une bonne tenue de dossiers.

Bien que des méthodes basiques aient été proposées pour identifier les CNVs et réaliser des tests d'association, une approche bioinformatique conviviale et complète n'a pas encore été largement disponible.

Étapes pour Analyser les CNVs Rares

Quand on réalise une étude comparant différentes conditions de santé (appelée étude cas-témoin) axée sur les CNVs rares, il y a plusieurs étapes clés :

  1. Détection des CNV : Identifier les CNVs présents dans les échantillons.
  2. Contrôle de qualité : S'assurer que les données sont précises et utilisables.
  3. Analyse de charge : Évaluer l'impact des CNVs sur la santé.
  4. Analyse d'enrichissement de jeux de gènes : Comprendre comment les CNVs affectent des ensembles spécifiques de gènes.

Les technologies de génotypage modernes fournissent les données nécessaires pour détecter les CNVs. Des outils comme PennCNV et Plink sont souvent utilisés dans ces analyses, en se concentrant à la fois sur les appels individuels de CNV et sur les variantes rares.

Cependant, jusqu'à présent, il n'existe pas de système bioinformatique structuré et flexible disponible pour mener à bien l'analyse des CNVs rares.

Présentation du Pipeline d'Analyse des CNV Rares

Ce travail propose une solution bioinformatique simple conçue pour identifier les CNVs rares dans les études cas-témoins. L'objectif principal est de créer un outil qui permet aux utilisateurs de réaliser une analyse des CNVs rares à partir des données de la Puce SNP de diverses études.

Pour y parvenir, nous prévoyons d'utiliser un moteur de flux de travail appelé Snakemake. Ce système permet aux chercheurs de construire un pipeline solide pour analyser les CNVs rares. Le code utilisé est modulaire, ce qui signifie que les utilisateurs peuvent ajuster certaines parties selon leurs besoins spécifiques. Si des fichiers d'entrée manquent ou si des erreurs se produisent pendant l'exécution, le pipeline supprimera automatiquement les fichiers de sortie partiellement créés pour éviter toute confusion.

La structure modulaire permet d'automatiser tout en restant personnalisable ; les utilisateurs peuvent modifier les paramètres, les outils logiciels, voire ajouter leur propre code. Le pipeline génère également des fichiers de configuration et des journaux, ainsi que des graphiques de diagnostic utilisant le langage R.

L'ensemble du projet est open source et disponible sous une licence MIT permissive, ce qui signifie qu'il peut être utilisé librement par quiconque souhaite y travailler.

Comment Fonctionne le Pipeline

Étapes Initiales : Détection des CNV et Contrôle de Qualité

Le pipeline commence par détecter les CNVs et effectuer un contrôle de qualité. Il prend les données d'entrée des puces SNP, qui contiennent des informations sur les valeurs d'intensité de signal associées à tous les marqueurs dans tous les échantillons. L'outil PennCNV est fourni avec des directives pour préparer ces fichiers d'intensité dérivés de diverses technologies de puces.

Le pipeline traite ces données d'intensité de signal pour produire des fichiers individuels pour chaque échantillon qui sont ensuite utilisés dans le processus d'appel de CNV. Dans le cadre de cette étape, d'autres fichiers essentiels pour une détection précise des CNVs, comme la fréquence de population de l'allèle B et les fichiers GCModel, sont également créés.

Après la détection des CNVs, le pipeline exclut les échantillons de mauvaise qualité en fonction de critères standards liés à la qualité du génotypage. Il supprime également les appels détectés dans des régions du génome particulièrement difficiles à évaluer, garantissant que seules des données fiables sont conservées pour une analyse ultérieure.

Analyse des CNVs Rares

Une fois l'étape de contrôle de qualité terminée, la phase suivante consiste à analyser les CNVs rares. Les appels générés plus tôt sont convertis dans un format adapté pour un traitement ultérieur dans Plink. À ce stade, seuls les individus non apparentés sont conservés pour éviter d'éventuels effets de confusion.

L'analyse comprend le filtrage des CNVs plus petits, ne conservant que ceux de plus de 50 kilobases soutenus par plus de cinq sondes. Le pipeline effectue ensuite une analyse de charge globale, qui compare le nombre de CNVs entre les groupes de cas et de contrôle selon divers critères.

Après l'analyse de charge, les suppressions et duplications rares sont identifiées, en éliminant les variantes communes basées sur des seuils prédéfinis. Cela aide à isoler les CNVs rares pour une évaluation plus détaillée.

Test d'Enrichissement de Jeux de Gènes

La dernière étape d'analyse utilise la méthode d'enrichissement de jeux de gènes de Plink pour comparer combien de CNVs impactent des ensembles spécifiques de gènes entre les cas et les contrôles. Cette approche aide à évaluer si certains gènes ou voies sont enrichis parmi les CNVs trouvés dans le groupe de cas par rapport aux contrôles.

Deux tests sont inclus par défaut : l'un évalue l'enrichissement général des gènes associés aux CNVs, tandis que le deuxième se concentre sur des voies de gènes spécifiques. Les deux tests s'appuient sur des tests de permutation pour générer des valeurs statistiques qui fournissent des informations sur s'il existe une différence significative entre les groupes.

Journalisation et Performance

Le pipeline crée automatiquement des fichiers journaux durant les étapes de contrôle de qualité et d'analyse des CNVs rares. Ces journaux détaillent des informations importantes, comme le nombre d'échantillons inclus ou exclus à chaque étape. Cette fonctionnalité facilite la compilation de rapports résumant les résultats globaux de l'analyse.

Le pipeline est conçu pour exécuter les tâches de manière séquentielle, mais il peut également identifier quelles parties du flux de travail peuvent s'exécuter en parallèle, réduisant ainsi le temps d'exécution global. Par exemple, le traitement de 6 112 échantillons avec plus de 700 000 marqueurs a pris environ 72 heures pour le contrôle de qualité et environ 21,5 minutes pour l'analyse des CNVs rares.

Conclusion

Ce travail présente un pipeline bioinformatique automatisé et adaptable visant à améliorer l'analyse des CNVs rares dans les études cas-témoins. Étant donné la croissance rapide des technologies de génotypage, gérer de grands ensembles de données tout en effectuant des analyses complexes est nécessaire pour la recherche moderne.

En offrant une approche rationalisée, le pipeline permet aux chercheurs de se concentrer sur leurs résultats sans être accablés par des détails techniques. Les principes de conception favorisent la réutilisabilité, le rendant applicable à un large éventail de tâches bioinformatiques au-delà de l'analyse des CNVs rares.

Disponibilité

Le pipeline d'analyse des CNVs rares est accessible pour une utilisation sur divers systèmes d'exploitation, y compris Linux et MacOS. Il est construit en utilisant R, Shell Scripting et Python, et est disponible sous une licence MIT, permettant une utilisation gratuite sans restrictions tant pour des fins académiques que non académiques.

Source originale

Titre: Rare Copy Number Variant analysis in case-control studies using SNP Array Data: a scalable and automated data analysis pipeline

Résumé: BackgroundRare copy number variants (CNVs) significantly influence the human genome and may contribute to disease susceptibility. High-throughput SNP genotyping platforms provide data that can be used for CNV detection, but it requires the complex pipelining of bioinformatic tools. Here, we propose a flexible bioinformatic pipeline for rare CNV analysis from human SNP array data. ResultsThe pipeline performs two major tasks: (1) CNV detection and quality control, and (2) rare CNV analysis. It is implemented in Snakemake following a rule-based structure that enables automation and scalability while maintaining flexibility. ConclusionsOur pipeline automates the detection and analysis of rare CNVs. It implements a rigorous CNV quality control, assesses the frequencies of these rare CNVs in patients versus controls, and evaluates the impact of CNVs on specific genes or pathways. We hence aim to provide an efficient yet flexible bioinformatic framework to investigate rare CNVs in biomedical research.

Auteurs: Stefan Johansson, H. Artaza, K. Lavrichenko, A. S. B. Wolff, E. C. Royrvik, M. Vaudel

Dernière mise à jour: 2024-03-14 00:00:00

Langue: English

Source URL: https://www.biorxiv.org/content/10.1101/2024.03.13.584428

Source PDF: https://www.biorxiv.org/content/10.1101/2024.03.13.584428.full.pdf

Licence: https://creativecommons.org/licenses/by-nc/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires