Nova Recurso Genético Combina Dados Globais
Um conjunto de dados unificado melhora a compreensão da diversidade genética humana.
― 7 min ler
Índice
O Projeto 1000 Genomas e o Projeto de Diversidade do Genoma Humano tiveram um papel crucial na coleta e compartilhamento de dados Genéticos de pessoas ao redor do mundo. Esses projetos visam mostrar a rica variedade da genética humana enquanto permitem que os pesquisadores acessem os dados livremente. Eles são recursos importantes para estudar várias questões de saúde, como as pessoas evoluíram e os avanços técnicos na pesquisa genética.
Ambos os projetos têm focos diferentes. O Projeto 1000 Genomas tem um vasto banco de dados de genomas inteiros e dados de mais de 3.000 indivíduos, tornando-se a referência para genética populacional. Por outro lado, o Projeto de Diversidade do Genoma Humano foca em uma diversidade mais ampla de populações, mas com menos amostras de cada grupo. Ambos os recursos têm pontos fortes diferentes, mas se complementam bem.
Importância dos Recursos Genéticos
Os dados genéticos gerados por esses projetos são obtidos usando tecnologias genômicas modernas. Eles são amplamente usados como referências para muitos estudos que investigam doenças, evolução e técnicas de análise genética. O Projeto 1000 Genomas é frequentemente usado para entender Variantes genéticas e doenças, enquanto o Projeto de Diversidade do Genoma Humano ajuda os pesquisadores a aprender mais sobre a evolução humana e a variação genética.
Os esforços para combinar esses Conjuntos de dados foram limitados no passado, resultando, muitas vezes, em soluções menos que ideais. Os pesquisadores enfrentaram desafios devido a diferenças nos métodos de chamada de dados e nos genomas de referência. Isso dificultou a análise dos dados juntos de forma eficaz. No entanto, trabalhos recentes visaram criar um recurso unificado que junta esses conjuntos de dados importantes.
Um Novo Recurso Unificado
Um novo recurso que combina os dados dos dois projetos foi desenvolvido. Esse recurso apresenta dados genéticos harmonizados e chamados em conjunto que ajudarão na análise de grupos diversos de pessoas. Esse novo conjunto de dados foi projetado para representar várias populações globalmente e conter informações genômicas de alta qualidade.
O conjunto de dados combinado inclui mais de 4.000 genomas que foram processados juntos para considerar variantes de nucleotídeos únicos, inserções, deleções e variantes estruturais. Isso melhora a qualidade geral dos dados, facilitando a compreensão da variação genética entre diferentes populações.
Principais Descobertas
Após analisar o conjunto de dados combinado, os pesquisadores identificaram um grande número de variantes de alta qualidade. Eles encontraram diferenças significativas na variação genética entre as populações. Por exemplo, indivíduos de populações africanas geralmente tinham mais variantes genéticas do que aqueles de outras regiões, o que está alinhado com padrões históricos de migração humana.
O recurso também notou que certas populações, como os povos San, apresentam características genéticas únicas que podem ligá-los à sua história como caçadores-coletores. Essa descoberta é crucial para entender a diversidade genética presente nas populações humanas de hoje.
Análise da Estrutura Populacional
Para avaliar a variação genética global, os pesquisadores usaram análise de componentes principais. Esse método ajuda a visualizar como diferentes populações se agrupam com base em suas semelhanças genéticas. A análise revelou distinções claras entre populações africanas e não africanas, além de subgrupos dentro dessas categorias maiores. Diferenças subcontinentais também foram aparentes, permitindo que os pesquisadores mapeassem as relações genéticas entre vários grupos com base em sua ancestralidade.
A análise mostrou que a diferenciação populacional pode ser influenciada por distâncias geográficas. Ao entender essas correlações, os pesquisadores podem obter insights sobre a história da migração humana. Os resultados também destacaram que algumas populações estão mais intimamente relacionadas entre si devido à ancestralidade compartilhada.
Entendendo a Variação Genética
A variação genética entre as populações pode vir de variantes comuns e raras. Os pesquisadores analisaram as frequências das variantes para entender como elas diferem entre as populações. Eles descobriram que certas variantes eram exclusivas de grupos específicos, indicando que essas populações podem ter enfrentado pressões evolutivas diferentes.
O conjunto de dados foi incrivelmente informativo na identificação de variações genéticas conhecidas e novas. O esforço para consolidar dados de diferentes fontes resultou em um catálogo notável de variantes. Isso é particularmente valioso para estudar os fatores de risco genéticos para doenças e entender como a genética influencia os resultados de saúde.
Faseamento e Imputação
Um aspecto significativo da análise genética é o haplotipagem, que envolve determinar a disposição das variantes no genoma de um indivíduo. O novo recurso oferece dados de haplótipos melhorados, o que aumenta a precisão de Análises genéticas como imputação. Imputação é o processo de preencher informações genéticas ausentes com base em dados conhecidos de indivíduos relacionados.
Pesquisas indicam que usar esse recurso combinado leva a um desempenho melhor em faseamento e imputação. Isso é especialmente útil para estudos que envolvem sequenciamento de baixa cobertura, um método que está ganhando popularidade devido ao seu custo-benefício e capacidade de aumentar o tamanho das amostras.
Recursos para Pesquisadores
Para tornar esse novo conjunto de dados genéticos mais acessível, tutoriais e guias detalhados foram fornecidos. Esses recursos ajudam os pesquisadores a realizar vários tipos de análise usando o conjunto de dados de forma eficiente. Os tutoriais cobrem tópicos como controle de qualidade dos dados, visualização de distribuições genéticas e entendimento das estruturas populacionais.
Os pesquisadores podem aplicar essas análises em seu trabalho, melhorando a qualidade dos estudos genômicos. Os tutoriais são projetados para serem amigáveis, permitindo que tanto pesquisadores experientes quanto novatos se beneficiem dos recursos abrangentes disponíveis.
Desafios e Direções Futuras
Apesar dos esforços extensivos para criar um recurso genético diversificado, algumas populações ainda permanecem sub-representadas. Questões éticas históricas relacionadas à pesquisa genética ainda representam desafios significativos para a comunidade científica. É importante trabalhar para uma representação justa de todas as comunidades em estudos genômicos para aprimorar a compreensão da genética humana.
À medida que os bancos de dados genéticos crescem, será crucial que os pesquisadores tenham ferramentas que ajudem a analisar esses dados de forma responsável e equitativa. A inovação contínua tanto na tecnologia quanto nas diretrizes éticas garantirá que os recursos genéticos possam ser utilizados efetivamente para pesquisas que beneficiem a todos.
Conclusão
O Projeto 1000 Genomas e o Projeto de Diversidade do Genoma Humano abriram caminho para entender a genética humana em uma escala global. O novo conjunto de dados harmonizados criado a partir desses dois recursos destaca a tremenda diversidade presente na genética humana e serve como uma ferramenta valiosa para os pesquisadores.
Através da fusão cuidadosa desses conjuntos de dados, os cientistas agora podem realizar estudos mais abrangentes. As percepções obtidas a partir desse recurso vão desvendando ainda mais as complexidades da genética humana, adicionando ao acervo de conhecimentos que pode informar pesquisas futuras e iniciativas de saúde. À medida que novas tecnologias continuam a evoluir, tais recursos desempenharão um papel vital no avanço da compreensão em genética, saúde e evolução humana.
Os pesquisadores devem continuar a reconhecer a importância da diversidade em estudos genéticos. Ao priorizar a inclusão e a justiça, a comunidade científica pode trabalhar em direção a uma melhor compreensão da genética para todas as populações. O desenvolvimento de tutoriais e recursos detalhados garantirá que os pesquisadores tenham as informações necessárias para aproveitar ao máximo o potencial desses conjuntos de dados. No geral, esses esforços irão ampliar a abrangência da pesquisa genética e suas aplicações na medicina e na saúde pública.
Título: A harmonized public resource of deeply sequenced diverse human genomes
Resumo: Underrepresented populations are often excluded from genomic studies due in part to a lack of resources supporting their analyses. The 1000 Genomes Project (1kGP) and Human Genome Diversity Project (HGDP), which have recently been sequenced to high coverage, are valuable genomic resources because of the global diversity they capture and their open data sharing policies. Here, we harmonized a high quality set of 4,094 whole genomes from HGDP and 1kGP with data from the Genome Aggregation Database (gnomAD) and identified over 153 million high-quality SNVs, indels, and SVs. We performed a detailed ancestry analysis of this cohort, characterizing population structure and patterns of admixture across populations, analyzing site frequency spectra, and measuring variant counts at global and subcontinental levels. We also demonstrate substantial added value from this dataset compared to the prior versions of the component resources, typically combined via liftover and variant intersection; for example, we catalog millions of new genetic variants, mostly rare, compared to previous releases. In addition to unrestricted individual-level public release, we provide detailed tutorials for conducting many of the most common quality control steps and analyses with these data in a scalable cloud-computing environment and publicly release this new phased joint callset for use as a haplotype resource in phasing and imputation pipelines. This jointly called reference panel will serve as a key resource to support research of diverse ancestry populations.
Autores: Alicia Martin, Z. Koenig, M. T. Yohannes, L. L. Nkambule, X. Zhao, J. K. Goodrich, H. A. Kim, M. W. Wilson, G. Tiao, S. P. Hao, N. Sahakian, K. R. Chao, M. A. Walker, Y. Lyu, gnomAD Project Consortium, H. Rehm, B. Neale, M. E. Talkowski, M. J. Daly, H. Brand, K. Karczewski, E. G. Atkinson
Última atualização: 2024-02-28 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2023.01.23.525248
Fonte PDF: https://www.biorxiv.org/content/10.1101/2023.01.23.525248.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://hail.is
- https://github.com/atgu/hgdp_tgp/tree/master/tutorials
- https://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/HGDP/
- https://hgdownload.soe.ucsc.edu/gbdb/hg38/1000Genomes/
- https://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/1000G_2504_high_coverage/working/20201028_3202_raw_GT_with_annot/
- https://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/HGSVC2/release/v1.0/integrated_callset/
- https://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/gambian_genome_variation_project/
- https://console.cloud.google.com/storage/browser/gcp-public-data--broad-references/hg38/v0/
- https://github.com/broadinstitute/gatk-sv