Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Biología# Bioinformática

Transformando la SRA: El Conjunto de Datos Logan

El proyecto Logan hace que los datos de SRA sean más accesibles y utilizables para la investigación.

― 7 minilectura


Transformaciones delTransformaciones delConjunto de Datos deLogan Acceso SRAinformación genómica.acceso a una gran cantidad deNuevo conjunto de datos simplifica el
Tabla de contenidos

El Archivo de Lectura de Secuencias (SRA) es la colección más grande de secuencias de ADN y ARN. En diciembre de 2023, tiene alrededor de 50 petabases de información de secuenciación en bruto, que son alrededor de 20 petabytes cuando está comprimida. Esto es significativamente más grande que GenBank, otra base de datos importante para datos biológicos. Debido a su tamaño masivo, descargar todos los datos del SRA con una conexión a internet rápida tomaría alrededor de seis meses. La mayoría de las instituciones no pueden manejar este volumen de datos localmente, limitando su capacidad para acceder solo a pequeñas partes del SRA.

El SRA contiene una gran variedad de información genómica, incluyendo muestras de proyectos humanos, líneas celulares, muestras ambientales y secuencias virales. Algunos estudios han examinado grupos específicos dentro del SRA para aprender más sobre ciertos organismos. Por ejemplo, un estudio encontró muchas más especies virales de ARN de las que se conocían anteriormente al analizar datos de antes de 2020. Otras herramientas proporcionan resúmenes taxonómicos y pueden buscar organismos específicos dentro de subconjuntos del SRA.

Retos para Acceder al SRA

Dado su tamaño, encontrar información específica en el SRA puede ser complicado. Algunos grupos han trabajado en crear métodos para buscar en el SRA de manera más eficiente. Un método implicaba usar potentes recursos de computación en la nube para procesar datos de ARN, pero requería varios días para cada búsqueda. Se han desarrollado otros métodos para filtrar partes del SRA en busca de muestras específicas.

Varias bases de datos también ofrecen acceso a secuencias genómicas ensambladas basadas en datos del SRA. Mientras que algunas tienen un número menor de muestras, el SRA contiene más de 27 millones de Accesiones, superando a estas otras colecciones.

La Necesidad de Transformación

Dado que el SRA es demasiado grande para explorarlo completamente en su estado actual, es necesario un cambio significativo para hacer que los datos sean más utilizables. Un nuevo proyecto se propuso el objetivo de ensamblar datos de todo el SRA usando recursos de nube efectivos. Al procesar los datos en bruto, crearon secuencias ensambladas que son más cortas y redujeron el tamaño general de los datos. Este proyecto resultó en un nuevo conjunto de datos, Logan, que hace que las búsquedas de secuencias a través del SRA sean más asequibles y manejables.

Cómo Funciona el Proceso de Ensamblaje

El equipo creó una infraestructura en la nube para llevar a cabo el ensamblaje a gran escala de los datos del SRA. Cada secuencia fue procesada individualmente en un flujo de trabajo sistemático. Primero, se descargaron lecturas del SRA, luego se ensamblaron en secuencias más cortas llamadas Unitigs y en secuencias más largas conocidas como Contigs. Estas secuencias fueron luego comprimidas y almacenadas en un lugar público para que otros pudieran acceder a ellas.

Con esta configuración, pudieron completar el ensamblaje de genomas para millones de accesiones. El tiempo total de procesamiento fue de alrededor de 30 millones de horas de CPU.

Resultados del Ensamblaje

El ensamblaje produjo dos tipos de resultados: unitigs y contigs. Los contigs son secuencias más largas que representan el consenso de la información genómica encontrada en las lecturas. Los unitigs son secuencias más cortas derivadas de contigs e incluyen algunas secuencias adicionales que se vieron en las lecturas varias veces.

Para diciembre de 2023, habían ensamblado más de 27 millones de accesiones en unitigs, lo que representa alrededor del 96% del tamaño total del SRA. Además, alrededor de 26.8 millones de accesiones fueron ensambladas en contigs, que representan aproximadamente el 88% del tamaño total del SRA.

Comparando el Conjunto de Datos Logan con Otros

El conjunto de datos ensamblado, Logan, es el conjunto de secuencias más grande recopilado del SRA hasta la fecha. Es significativamente más grande que otras bases de datos de secuencias ensambladas. Mientras que esfuerzos anteriores para indexar el SRA produjeron resultados útiles, el conjunto de datos Logan es un orden de magnitud más grande, convirtiéndolo en un recurso sustancial para los investigadores.

Alineación de Secuencias en el SRA

El conjunto de datos Logan también se utilizó para la alineación de secuencias contra varios objetivos. Se creó una base de datos a partir de secuencias virales conocidas y marcadores génicos específicos. Al alinear los contigs de Logan contra esta base de datos de referencia, los investigadores pudieron reunir una gran cantidad de información sobre la presencia de secuencias específicas dentro de las accesiones del SRA.

Esta alineación reveló nuevos datos sobre la diversidad viral. Por ejemplo, el proyecto detectó muchas más instancias de ciertos virus en las accesiones de las que habían encontrado esfuerzos previos. Este conocimiento ampliado podría llevar a una mejor comprensión de cómo se distribuyen estos organismos en diferentes entornos.

Selección de Datos de Entrada

Para crear el conjunto de datos Logan, el equipo seleccionó muestras del SRA que se hicieron públicas a partir del 10 de diciembre de 2023. Se centraron en muestras con longitudes de lectura mayores a 31 pares de bases para asegurar la usabilidad en el proceso de ensamblaje.

Herramientas de Ensamblaje Utilizadas

Para construir los unitigs y contigs, se utilizaron herramientas específicas conocidas por ser eficientes y amigables con la memoria. Estas herramientas ayudaron en la construcción de las secuencias y redujeron errores en el ensamblaje.

Los investigadores utilizaron una versión modificada de una herramienta de ensamblaje existente que les permitió estimar cantidades de ciertas secuencias dentro de los datos. También emplearon una segunda herramienta para crear los contigs a partir de los unitigs y filtraron secuencias más cortas que probablemente eran errores.

Infraestructura en la Nube para el Ensamblaje

El ensamblaje se llevó a cabo utilizando una infraestructura basada en la nube. Esta configuración permitió el procesamiento simultáneo de muchas accesiones del SRA, haciendo que el proceso general de ensamblaje fuera rápido y eficiente. La arquitectura en la nube estaba compuesta por varias partes que trabajaban juntas para manejar grandes cantidades de datos.

Usando Amazon Web Services, el equipo ejecutó contenedores a través de numerosas computadoras en la nube. Se establecieron paneles especializados para monitorear el progreso y asegurar que la ejecución se estuviera llevando a cabo sin problemas.

Calidad de los Datos y Evaluación

Después del ensamblaje, se utilizaron varias métricas estándar para evaluar la calidad de los resultados. Estas incluían contar el número de unitigs y contigs, medir sus longitudes y verificar el tamaño de los archivos comprimidos. La información recopilada se almacenó en una base de datos y se hizo accesible para futuras investigaciones.

Aunque la mayoría de las secuencias fueron ensambladas correctamente, se notó un pequeño problema con ciertas secuencias que fueron marcadas incorrectamente como circulares. A pesar de este error, la información contenida en el conjunto de datos Logan sigue siendo biológicamente valiosa.

Direcciones Futuras

El conjunto de datos Logan contiene una gran cantidad de información que se puede explorar más a fondo. Los investigadores pueden utilizar estos datos para realizar estudios más detallados sobre una variedad de organismos. Al continuar analizando las secuencias ensambladas, los científicos pueden ampliar su comprensión de la diversidad genética y las relaciones entre diferentes especies.

Conclusión

El proyecto Logan representa un avance significativo en la capacidad para acceder y analizar datos del SRA. Aunque el conjunto de datos original es demasiado grande para manejarlo completamente, transformarlo en un formato más manejable permite a los investigadores explorar nuevas avenidas de investigación. Este conjunto de datos no solo facilita las búsquedas a través de vastas cantidades de datos, sino que también abre la puerta a estudios más completos sobre la diversidad biológica.

Fuente original

Título: Logan: Planetary-Scale Genome Assembly Surveys Life's Diversity

Resumen: The NCBI Sequence Read Archive (SRA) is the largest public repository of DNA sequencing data, containing the most comprehensive snapshot of Earths genetic diversity to date. As its size exceeds 50.0 petabases across >27 million sequencing datasets, the entirety of these data cannot be searched for genetic sequences of interest in a reasonable time. To drastically increase the accessibility of this data we perform genome assembly over each SRA dataset using massively parallel cloud computing. The resulting Logan assemblage is the largest dataset of assembled sequencing data to date, and we believe will enable a new-era of accessible petabase-scale computational biology inquiry. We provide free and unrestricted access to the Logan assemblage and disseminate these datasets to foster early adoption. To illustrate the usefulness of Logan we align a diverse set of sequence queries across all of the SRA, completing queries in as little as 11 hours.

Autores: Rayan Chikhi, B. Raffestin, A. Korobeynikov, R. C. Edgar, A. Babaian

Última actualización: 2024-07-31 00:00:00

Idioma: English

Fuente URL: https://www.biorxiv.org/content/10.1101/2024.07.30.605881

Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.07.30.605881.full.pdf

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares