Repensando el Equilibrio de Hardy-Weinberg en Grandes Estudios Genéticos
Ajustar métodos HWE puede mejorar el análisis de variantes genéticas en muestras grandes.
― 8 minilectura
Tabla de contenidos
- La Importancia del Control de Calidad de Datos
- El Cambio hacia Big Data en Genética
- Repensando el Filtrado HWE
- Participantes del Estudio
- Recopilación de Datos de Genotipo
- Pasos de Procesamiento de Datos
- Hallazgos Iniciales sobre la Exclusión de Variantes
- Estrategias Alternativas de Filtrado HWE
- Hallazgos Principales de los Datos del Biobanco del Reino Unido
- El Impacto del Tamaño de la Muestra en las Variantes Genéticas
- Propuestas para la Investigación Futura
- Conclusión: Reevaluando el Filtrado HWE
- Fuente original
- Enlaces de referencia
El Equilibrio de Hardy-Weinberg (HWE) es un concepto clave en genética que ayuda a los investigadores a entender cómo se comportan los genes en una población. Cuando los científicos analizan un grupo de individuos, a menudo quieren ver con qué frecuencia aparecen ciertas formas de genes, o alelos. HWE proporciona frecuencias esperadas para tres combinaciones de estos alelos: AA, AB y BB. Las frecuencias se basan en las proporciones de cada alelo en la población.
A los investigadores les interesa HWE porque ayuda a identificar posibles errores en la forma en que se recopilan los datos genéticos. Antes de analizar los datos, los científicos suelen comprobar qué tan de cerca las frecuencias observadas de los alelos coinciden con las frecuencias esperadas. Esta comparación implica pruebas estadísticas, generalmente utilizando un método llamado prueba de chi-cuadrado. Si la diferencia entre las frecuencias observadas y las esperadas es significativa, puede indicar problemas potenciales con los datos.
La Importancia del Control de Calidad de Datos
En estudios grandes, como los estudios de asociación a nivel genómico (GWAS), mantener una alta calidad de datos es crucial. Muchos factores pueden alterar los patrones genéticos esperados descritos por HWE. Estos incluyen diferencias en los antecedentes poblacionales, preferencias de apareamiento o incluso los efectos de la selección natural. Por lo tanto, los resultados de un estudio podrían ser engañosos si los datos no se filtran adecuadamente para HWE.
En GWAS anteriores, los investigadores comúnmente usaban un umbral estricto de p-valor (una medida estadística) de menos de 1e-5 para filtrar variantes que se desviaban de HWE. A medida que los estudios crecieron, con tamaños de muestra que alcanzan cientos de miles, la necesidad de umbrales más flexibles se hizo evidente. Algunas pautas ahora recomiendan relajar el umbral, particularmente para grupos enfermos.
El Cambio hacia Big Data en Genética
Con los avances en la recopilación de datos, los estudios actuales involucran grupos más grandes de participantes, a menudo superando los 400,000 individuos. Sin embargo, muchos tutoriales e investigaciones publicadas aún se apegan a los cortes de p-valor HWE tradicionales, aunque estos pueden ya no ser apropiados.
A medida que aumenta el tamaño de la muestra, la relación entre los p-valores y tanto el tamaño de la muestra como el tamaño del efecto se vuelve evidente. Un tamaño de muestra más grande puede facilitar la detección de efectos genéticos más pequeños, pero también puede cambiar cómo se calcula HWE. Usar el mismo umbral para todos los tamaños de muestra puede llevar a excluir un número excesivo de variaciones genéticas del análisis.
Repensando el Filtrado HWE
Para entender los efectos del filtrado HWE en grandes conjuntos de datos, los investigadores estudiaron datos del Biobanco del Reino Unido. El objetivo era ver cómo diferentes tamaños de muestra influenciaban el número de Variantes Genéticas que pasaban o fallaban la prueba de HWE.
Los hallazgos iniciales indicaron que usar cortes HWE estrictos resultó en que muchas variantes genéticas importantes fueran filtradas, especialmente en muestras más grandes. Dos alternativas propuestas al método existente incluyen ajustar el umbral de p-valor según el tamaño de la muestra o adoptar un rango fijo alrededor de los valores esperados de HWE para filtrar.
Participantes del Estudio
La investigación utilizó datos del Biobanco del Reino Unido, que incluye información genética y de salud de más de 502,000 individuos de entre 40 y 69 años, reclutados entre 2006 y 2010. Esta vasta cantidad de datos proporciona una sólida base para examinar cómo los grandes tamaños de muestra influyen en los resultados de HWE.
Recopilación de Datos de Genotipo
La información genética utilizada se recopiló a través de un tipo específico de matriz y luego se refinó utilizando recursos adicionales. Los investigadores aseguraron que los datos cumplieran con ciertos estándares de calidad y completitud. El estudio se centró en filtrar variantes que no cumplían con los criterios deseados antes de analizar los datos para la adherencia a HWE.
Pasos de Procesamiento de Datos
Para analizar los datos, los científicos utilizaron varias herramientas de línea de comandos. Aplicaron filtros para asegurarse de que solo se incluyeran los datos genéticos más precisos. Al muestrear del gran conjunto de datos múltiples veces, los investigadores calcularon HWE para varios tamaños de muestra. Estaban particularmente interesados en cómo estos diferentes tamaños de muestra impactaban el número de variantes genéticas que pasaban la prueba de HWE.
Hallazgos Iniciales sobre la Exclusión de Variantes
Cuando se aplicó el filtrado HWE utilizando el corte tradicional de p-valor, el número de variantes excluidas creció significativamente a medida que aumentaban los tamaños de muestra. Para tamaños de muestra más pequeños, de menos de 10,000 individuos, la tasa de exclusión estaba por debajo del 1%. Sin embargo, para el conjunto de datos completo del Biobanco del Reino Unido, casi el 19% de las variantes fueron eliminadas debido al filtrado HWE.
Los hallazgos mostraron un marcado descenso en el rango aceptable de desviación de HWE a medida que crecía el tamaño de la muestra, lo que indica que los métodos de filtrado estrictos pueden ser excesivamente duros para conjuntos de datos más grandes.
Estrategias Alternativas de Filtrado HWE
Los investigadores propusieron dos alternativas principales al enfoque estándar de filtrado. El primer método implica usar un p-valor que cambia según el tamaño de la muestra. Esto permitiría un umbral más adaptable que pudiera acomodar conjuntos de datos más grandes mientras se mantiene un estándar justo.
El segundo método sugiere permitir un rango del 20% por encima y por debajo de los valores esperados de HWE. Esto permitiría a los investigadores retener más variantes, no perdiéndose así posibles factores genéticos relacionados con enfermedades.
Hallazgos Principales de los Datos del Biobanco del Reino Unido
El análisis indicó que los resultados genéticos imputados estaban disponibles para casi 486,000 individuos. Inicialmente, los datos contenían más de 7 millones de variantes, pero este número se redujo drásticamente después de aplicar medidas básicas de control de calidad.
Filtrar por HWE utilizando un corte estricto de p-valor llevó a la pérdida de una porción significativa de variantes, resaltando cómo los métodos tradicionales pueden no ser adecuados para muestras grandes y diversas. Ajustar el método de filtrado permitió que un número considerable de variantes pasara, manteniendo así información genética potencialmente importante.
El Impacto del Tamaño de la Muestra en las Variantes Genéticas
A medida que aumentaban los tamaños de muestra, los investigadores notaron tendencias en con qué frecuencia las variantes pasaban o fallaban la prueba de HWE. En el conjunto de datos compuesto por diversas ancestrías, el filtrado llevó a que más variantes fueran excluidas, mientras que en un grupo solo europeo, el efecto fue menos pronunciado.
Para muestras más grandes, los investigadores encontraron que una parte significativa de las variantes que deberían haberse incluido fallaron la prueba de HWE. Esto planteó preguntas sobre la idoneidad del filtrado estricto para tales conjuntos de datos.
Propuestas para la Investigación Futura
Este estudio sugiere que los investigadores deberían reconsiderar cómo implementan el filtrado basado en HWE en estudios genéticos a gran escala. Ignorar el tamaño de la muestra puede llevar a pérdidas innecesarias de variantes genéticas valiosas.
Incorporar el tamaño de la muestra en el proceso de filtrado HWE podría resultar beneficioso. Al utilizar un umbral variable basado en el tamaño de la muestra, los investigadores podrían evitar excluir datos genéticos importantes. Además, emplear un corte rígido que permita una desviación definida de HWE esperado podría mejorar aún más la calidad de los resultados.
Conclusión: Reevaluando el Filtrado HWE
En conclusión, aplicar un enfoque único para todos al filtrado HWE en estudios genéticos puede llevar a que se descarten muchas variantes importantes, especialmente en conjuntos de datos grandes. Se alienta a los investigadores a examinar sus prácticas de filtrado y considerar ajustar los umbrales de p-valor según el tamaño de la muestra, o adoptar un modelo que permita más flexibilidad en el filtrado.
A medida que se estudian poblaciones más diversas, se vuelve vital asegurar que los métodos de investigación genética no eliminen inadvertidamente variaciones clave que podrían contribuir a nuestra comprensión de las enfermedades humanas. La evaluación continua y la mejora de los procesos en torno a HWE serán esenciales para descubrir información genética significativa en el futuro.
Título: A reassessment of Hardy-Weinberg equilibrium filtering in large sample Genomic studies.
Resumen: Hardy Weinberg Equilibrium (HWE) is a fundamental principle of population genetics. Adherence to HWE, using a p-value filter, is used as a quality control measure to remove potential genotyping errors prior to certain analyses. Larger sample sizes increase power to differentiate smaller effect sizes, but will also affect methods of quality control. Here, we test the effects of current methods of HWE QC filtering on varying sample sizes up to 486,178 subjects for imputed and Whole Exome Sequencing (WES) genotypes using data from the UK Biobank and propose potential alternative filtering methods. METHODSSimulations were performed on imputed genotype data using chromosome 1. WES GWAS (Genome Wide Association Study) was performed using PLINK2. RESULTSOur simulations on the imputed data from Chromosome 1 show a progressive increase in the number of SNPs eliminated from analysis as sample sizes increase. As the HWE p-value filter remains constant at p
Autores: Ben Busby, P. J. Greer, A. Sedlakova, M. Ellison, T. D. Oranburg, M. Maiers, D. C. Whitcomb
Última actualización: 2024-03-19 00:00:00
Idioma: English
Fuente URL: https://www.medrxiv.org/content/10.1101/2024.02.07.24301951
Fuente PDF: https://www.medrxiv.org/content/10.1101/2024.02.07.24301951.full.pdf
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a medrxiv por el uso de su interoperabilidad de acceso abierto.