Nuevos estándares en la investigación genética: un avance en las mutaciones somáticas
Los investigadores desarrollan un nuevo referente para estudiar mutaciones somáticas de baja frecuencia en genética.
Camille A. Daniels, Adetola Abdulkadir, Megan H. Cleveland, Jennifer H. McDaniel, David Jáspez, Luis Alberto Rubio-Rodríguez, Adrián Muñoz-Barrera, José Miguel Lorenzo-Salazar, Carlos Flores, Byunggil Yoo, Sayed Mohammad Ebrahim Sahraeian, Yina Wang, Massimiliano Rossi, Arun Visvanath, Lisa Murray, Wei-Ting Chen, Severine Catreux, James Han, Rami Mehio, Gavin Parnaby, Andrew Carroll, Pi-Chuan Chang, Kishwar Shafin, Daniel Cook, Alexey Kolesnikov, Lucas Brambrink, Mohammed Faizal Eeman Mootor, Yash Patel, Takafumi N. Yamaguchi, Paul C. Boutros, Karolina Sienkiewicz, Jonathan Foox, Christopher E. Mason, Bryan R. Lajoie, Carlos A. Ruiz-Perez, Semyon Kruglyak, Justin M. Zook, Nathan D. Olson
― 10 minilectura
Tabla de contenidos
- La Iniciativa de los Institutos Nacionales de Salud
- La Conmoción Alrededor del Proyecto Genoma en una Botella
- La Necesidad de Estándares de Referencia
- El Conjunto de Estándares Mosaicos
- La Aventura de la Llamada de variantes
- Técnicas en Uso
- La Importancia de Alta Cobertura
- Los Resultados
- El Desafío de los Efectos de Lote
- Retroalimentación de la Validación Externa
- Direcciones Futuras
- Conclusión: El Tesoro de la Investigación Genética
- Fuente original
- Enlaces de referencia
En el estudio de los genomas humanos, los científicos buscan variaciones que pueden revelar información importante sobre la salud y las enfermedades. Estas variaciones se pueden dividir en dos tipos: Variantes de línea germinal y Mutaciones somáticas. Las variantes de línea germinal se heredan de los padres, mientras que las mutaciones somáticas ocurren después de la concepción y no se transmiten a la siguiente generación. Piensa en las variantes de línea germinal como herencias familiares, mientras que las mutaciones somáticas son más como regalos sorpresa que pueden aparecer de repente.
Las variantes de línea germinal pueden ser heterocigotas o homocigotas. Cuando una persona tiene dos copias diferentes de un gen (una de cada padre), se llama heterocigota. Si ambas copias son iguales, se llama homocigota. Los investigadores suelen centrarse en las variantes que están presentes en al menos el 50% o 100% de las células para estas dos categorías. Sin embargo, a veces las variaciones pueden ocurrir en una fracción más pequeña de células, lo que puede hacer que sean más complicadas de detectar. Esto puede suceder debido a un fenómeno llamado mosaicismo somático, donde algunas células en un individuo tienen una composición genética diferente.
Las mutaciones somáticas se han convertido en un tema candente en la investigación porque pueden llevar a problemas de salud graves como el cáncer u otras enfermedades. Aunque algunas de estas mutaciones pueden no causar daño, otras podrían llevar a un crecimiento celular descontrolado. Los investigadores quieren identificar y entender mejor estas mutaciones para mejorar el diagnóstico y el tratamiento de diversas condiciones.
La Iniciativa de los Institutos Nacionales de Salud
Se ha hecho un esfuerzo notable por parte de los Institutos Nacionales de Salud (NIH) para estudiar estas mutaciones somáticas a través de un programa llamado Mosaicismo Somático en Tejidos Humanos (SMaHT). Esta iniciativa tiene como objetivo crear un recurso para que los científicos estudien estas variantes de baja frecuencia al recopilar datos de tejidos sanos. Al establecer un repositorio de variantes mosaico, los investigadores pueden acceder a esta información para analizar el papel de las mutaciones somáticas en enfermedades y la salud en general.
Para abordar los desafíos de identificar estas variaciones complicadas, los científicos han ideado varios métodos diseñados específicamente para la detección de variantes de baja frecuencia. Así que, en lugar de apegarse solo a las variaciones fáciles de encontrar, los investigadores ahora buscan más a fondo en la composición genética de los individuos para encontrar joyas ocultas.
La Conmoción Alrededor del Proyecto Genoma en una Botella
Uno de los recursos importantes en esta área de investigación es el proyecto Genoma en una Botella (GIAB), que proporciona materiales de referencia para la secuenciación genética. El programa ha producido una colección de genomas de referencia de líneas celulares linfoblastoides humanas, que a menudo se utilizan para evaluar y validar métodos de análisis genético.
En su trabajo, los científicos se centran en variaciones que tienen un porcentaje de ocurrencia más bajo en las células, generalmente por debajo del 30%. Los estándares de referencia enfatizan principalmente variantes que son fácilmente detectables, lo que puede pasar por alto las variaciones más sutiles, pero importantes, que pueden proporcionar información adicional sobre las condiciones de salud.
La Necesidad de Estándares de Referencia
Para avanzar en el conocimiento y los métodos relacionados con las mutaciones somáticas, los investigadores están constantemente buscando estándares de referencia. Estos estándares son conjuntos de variaciones conocidas que los investigadores pueden utilizar para confirmar sus hallazgos al analizar nuevas muestras. Piensa en ello como un libro de recetas para científicos: quieren saber qué ingredientes (o variantes) son esenciales para el plato (o entendimiento) que intentan crear.
Los estándares de referencia previamente establecidos se han centrado en variantes de alta confianza y detalles estructuralmente significativos, pero ha habido una brecha en lo que respecta a variantes de baja frecuencia. Los nuevos estándares propuestos ayudarán a los científicos a evaluar la precisión de sus métodos y proporcionar un sistema para identificar verdaderos positivos (variantes correctamente identificadas) y falsos negativos (variantes perdidas).
El Conjunto de Estándares Mosaicos
Para llenar esta brecha, los investigadores han creado un nuevo conjunto de estándares con un enfoque en variantes mosaico, específicamente de un individuo bien caracterizado de la colección de material de referencia GIAB. El estándar consiste en variantes de nucleótido único (SNVs) cuidadosamente seleccionadas que caen dentro de un rango de 5% a 30% de fracción de alelo variante (VAF). El equipo utilizó un proceso complejo que involucraba datos de secuenciación de alta cobertura tanto del individuo como de sus padres para identificar posibles variantes mosaico que existen dentro del genoma del individuo.
La colección de variantes mosaico puede servir para múltiples propósitos. Por ejemplo, pueden ayudar a refinar métodos para detectar mutaciones somáticas y proporcionar una referencia para distinguir entre variantes verdaderas y falsas en la investigación. Este recurso será invaluable para la comunidad científica mientras buscan entender cómo estas sutiles variaciones genéticas contribuyen a la salud y la enfermedad.
Llamada de variantes
La Aventura de laEn el mundo de las pruebas genéticas, la llamada de variantes es como una búsqueda del tesoro donde los investigadores revisan montañas de datos para encontrar valiosas pepitas de información. El proceso de búsqueda implica varias herramientas y técnicas para detectar la presencia de variantes específicas en los datos genéticos. Sin embargo, cuando se trata de variantes de baja frecuencia, las herramientas deben ajustarse para captar los detalles que se pierden fácilmente.
Los investigadores a menudo utilizan diferentes tecnologías de secuenciación para observar las mismas muestras, lo que ayuda a proporcionar una visión más completa de lo que está sucediendo en el genoma. Al analizar datos de diferentes plataformas y comparar resultados, pueden alcanzar un mayor nivel de confianza en sus hallazgos.
Técnicas en Uso
Al crear el estándar mosaico, los investigadores han utilizado un enfoque basado en trios, que implica examinar los datos genéticos de un niño y ambos padres. Esto ayuda a distinguir entre mutaciones heredadas y somáticas. Los investigadores utilizaron una herramienta llamada Strelka2 para su análisis, que está diseñada para identificar variantes somáticas a partir de datos de secuenciación.
Se aseguraron de validar sus hallazgos utilizando varios métodos de secuenciación y garantizando que las variantes identificadas pudieran ser respaldadas por datos independientes. De esta manera, pueden estar más seguros sobre la legitimidad de sus estándares mosaico y la precisión de su llamada de variantes.
La Importancia de Alta Cobertura
Un aspecto vital de la generación de datos confiables es garantizar que la cobertura de secuenciación sea alta. La alta cobertura significa que cada parte del genoma se lee muchas veces, lo que aumenta la probabilidad de detectar variantes verdaderas y filtrar el ruido. Los investigadores utilizaron estos datos de alta cobertura para crear una lista de posibles variantes mosaico que están dentro del rango VAF deseado.
En sus hallazgos, identificaron un número sustancial de posibles variantes mosaico. A partir de este grupo más grande, se centraron en los candidatos más prometedores adecuados para su inclusión en su referencia estándar. Al curar manualmente estas variantes y confirmar su presencia en múltiples fuentes de datos, refinaron su estándar mosaico final.
Los Resultados
El conjunto final de estándares mosaicos incluye 85 SNVs validados, cada uno cuidadosamente seleccionado por sus características específicas y relevancia potencial en la investigación. Estas variantes cubren una gran parte del genoma e incluyen regiones que a menudo son desafiantes de estudiar debido a su complejidad.
Mientras que algunas de estas variantes están en genes médicamente relevantes, otras presentan oportunidades para una comprensión más profunda de los impactos más sutiles en la salud. Con el estándar mosaico en su lugar, los investigadores pueden evaluar de manera confiable sus métodos de llamada de variantes y continuar investigando cómo las variantes mosaico contribuyen a diversas condiciones.
El Desafío de los Efectos de Lote
Un giro interesante en esta investigación es el descubrimiento de que los efectos de lote pueden influir en los resultados de los análisis genéticos. Al comparar diferentes lotes de ADN, los investigadores encontraron variaciones en los perfiles VAF, lo que sugiere que las diferencias en cómo se procesan las muestras pueden afectar el resultado de la identificación de variantes.
Este hallazgo destaca la importancia de utilizar materiales de referencia bien caracterizados, ya que proporcionan una base estable para la comparación. Los investigadores quieren asegurarse de que los datos que analizan reflejan verdadera variación biológica en lugar de estar influenciados por cómo se preparó o procesó la muestra.
Retroalimentación de la Validación Externa
Para asegurar la confiabilidad del estándar mosaico, los investigadores se pusieron en contacto con otros grupos que trabajan en la llamada de variantes somáticas. Este proceso de validación externa involucró comparar sus hallazgos con la versión preliminar del estándar mosaico. Al recopilar comentarios y evaluar diferencias, pudieron refinar aún más sus métodos.
Los resultados de estas evaluaciones confirmaron que el conjunto de estándares identifica de manera confiable falsos positivos y negativos a través de diferentes métodos de llamada de variantes. Este nivel adicional de validación fortalece la confianza que los investigadores pueden tener al usar el estándar mosaico para futuros estudios.
Direcciones Futuras
Con la creación del estándar mosaico, los investigadores ahora pueden anticipar nuevas posibilidades en el estudio de las mutaciones somáticas. El estándar proporciona un recurso robusto para investigar variantes de baja frecuencia en varios contextos, desde la investigación del cáncer hasta la comprensión de enfermedades complejas.
Se alienta a los científicos a utilizar este estándar para evaluar sus propios métodos, identificar errores potenciales en la llamada de variantes y mejorar su comprensión del mosaicismo somático. Aprovechando los nuevos estándares y recursos creados, los investigadores pueden avanzar en la forma en que estudian la salud humana y las enfermedades asociadas con cambios genéticos.
Conclusión: El Tesoro de la Investigación Genética
En resumen, el desarrollo del estándar mosaico representa un paso significativo hacia adelante en el campo de la investigación genómica. Al proporcionar una referencia confiable para variantes de baja frecuencia, los investigadores pueden investigar de manera más efectiva los roles que estas variantes juegan en la salud y la enfermedad.
A medida que la comunidad científica continúa descubriendo los secretos ocultos en nuestro ADN, la esperanza es mejorar los diagnósticos y tratamientos para una variedad de condiciones. Así que, aunque la búsqueda de respuestas puede estar llena de giros y vueltas, este nuevo estándar es un mapa importante que guía a los investigadores en su búsqueda por entender las complejidades del genoma humano. ¿Y quién dijo que las búsquedas del tesoro no podían ser divertidas?
Título: A robust benchmark for detecting low-frequency variants in the HG002 Genome In A Bottle NIST reference material.
Resumen: Somatic mosaicism is an important cause of disease, but mosaic and somatic variants are often challenging to detect because they exist in only a fraction of cells. To address the need for benchmarking subclonal variants in normal cell populations, we developed a benchmark containing mosaic variants in the Genome in a Bottle Consortium (GIAB) HG002 reference material DNA from a large batch of a normal lymphoblastoid cell line. First, we used a somatic variant caller with high coverage (300x) Illumina whole genome sequencing data from the Ashkenazi Jewish trio to detect variants in HG002 not detected in at least 5% of cells from the combined parental data. These candidate mosaic variants were subsequently evaluated using >100x BGI, Element, and PacBio HiFi data. High confidence candidate SNVs with variant allele fractions above 5% were included in the HG002 draft mosaic variant benchmark, with 13/85 occurring in medically relevant gene regions. We also delineated a 2.45 Gbp subset of the previously defined germline autosomal benchmark regions for HG002 in which no additional mosaic variants >2% exist, enabling robust assessment of false positives. The variant allele fraction of some mosaic variants is different between batches of cells, so using data from the homogeneous batch of reference material DNA is critical for benchmarking these variants. External validation of this mosaic benchmark showed it can be used to reliably identify both false negatives and false positives for a variety of technologies and detection algorithms, demonstrating its utility for optimization and validation. By adding our characterization of mosaic variants in this widely-used cell line, we support extensive benchmarking efforts using it in simulation, spike-in, and mixture studies.
Autores: Camille A. Daniels, Adetola Abdulkadir, Megan H. Cleveland, Jennifer H. McDaniel, David Jáspez, Luis Alberto Rubio-Rodríguez, Adrián Muñoz-Barrera, José Miguel Lorenzo-Salazar, Carlos Flores, Byunggil Yoo, Sayed Mohammad Ebrahim Sahraeian, Yina Wang, Massimiliano Rossi, Arun Visvanath, Lisa Murray, Wei-Ting Chen, Severine Catreux, James Han, Rami Mehio, Gavin Parnaby, Andrew Carroll, Pi-Chuan Chang, Kishwar Shafin, Daniel Cook, Alexey Kolesnikov, Lucas Brambrink, Mohammed Faizal Eeman Mootor, Yash Patel, Takafumi N. Yamaguchi, Paul C. Boutros, Karolina Sienkiewicz, Jonathan Foox, Christopher E. Mason, Bryan R. Lajoie, Carlos A. Ruiz-Perez, Semyon Kruglyak, Justin M. Zook, Nathan D. Olson
Última actualización: 2024-12-05 00:00:00
Idioma: English
Fuente URL: https://www.biorxiv.org/content/10.1101/2024.12.02.625685
Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.12.02.625685.full.pdf
Licencia: https://creativecommons.org/publicdomain/zero/1.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://smaht.org/
- https://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/latest/hg38.fa.gz
- https://ftp-trace.ncbi.nlm.nih.gov/ReferenceSamples/giab/data/AshkenazimTrio/HG002_NA24385_son/Element_AVITI_20231018/
- https://github.com/PacificBiosciences/HiFi-human-WGS-WDL
- https://ftp-trace.ncbi.nlm.nih.gov/ReferenceSamples/giab/data/AshkenazimTrio/HG002_NA24385_son/PacBio_HiFi-Revio_20231031/