Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Biología# Bioinformática

Automatización en el Análisis de Secuenciación Sanger

sangerFlow acelera el análisis de ADN para la identificación de especies.

― 5 minilectura


Optimización de laOptimización de laSecuenciación de Sangerrápidamente.ADN para identificar especiessangerFlow automatiza el análisis de
Tabla de contenidos

La secuenciación Sanger es un método que se usa para leer secuencias de ADN. A menudo se utiliza en laboratorios para identificar diferentes especies o microorganismos. Esto es importante para tareas como estudiar plagas o enfermedades. Los científicos pueden analizar secuencias genéticas específicas para determinar qué organismo están mirando.

Una herramienta común para este análisis se llama Blastn, que compara secuencias de ADN contra una gran base de datos para encontrar coincidencias. Por ejemplo, los científicos pueden usarla para identificar especies de insectos mirando un gen específico que se encuentra en sus mitocondrias. De manera similar, pueden analizar bacterias usando un gen llamado 16S rRNA o estudiar hongos con un gen llamado 28S-ITS.

Aunque hay muchas herramientas de software disponibles para ayudar con la secuenciación Sanger, la mayoría requiere que el usuario procese los datos manualmente, lo que puede ser lento cuando hay que analizar grandes cantidades de información. Esto puede ser un desafío en situaciones donde se necesitan procesar muchos muestras rápidamente, como durante un evento de vigilancia de bioseguridad.

Para abordar este problema, se desarrolló una nueva herramienta llamada sangerFlow. Esta herramienta está diseñada para procesar automáticamente los datos de secuenciación Sanger, facilitando y acelerando a los científicos la identificación de especies a partir de grandes conjuntos de datos.

Cómo funciona sangerFlow

La herramienta sangerFlow está diseñada para tomar datos brutos de secuenciación Sanger y devolver resultados rápidamente. Funciona tomando dos tipos de archivos de entrada que provienen del proceso de secuenciación: archivos .seq y archivos .fasta.

El proceso comienza separando los datos en dos canales: uno para la lectura directa y otro para la lectura inversa. Las lecturas directas se renombran según los nombres de las muestras. Cualquier dato poco claro o ambiguo se recorta para asegurar que solo se mantenga la información de mejor calidad. Las lecturas inversas pasan por un proceso similar, donde se renombran y se convierten en un formato útil para el análisis.

Una vez que estos pasos están completos, las lecturas directas e inversas se combinan. Se alinean usando una herramienta llamada Clustal Omega, que ayuda a encontrar similitudes en las secuencias. A partir de esta alineación, se genera una Secuencia de Consenso, que representa la secuencia más común observada en los datos.

Esta secuencia se envía a Blastn. La herramienta verifica la secuencia contra una vasta base de datos e identifica coincidencias potenciales. Los resultados pueden mostrarse en varios formatos, como XML, HTML o archivos TSV, lo que facilita a los científicos visualizar los resultados.

Además, sangerFlow compila un resumen de los resultados en una hoja maestra que muestra las mejores coincidencias de todas las muestras. Esta función permite verificar rápidamente y acelerar la identificación de especies.

Beneficios de usar sangerFlow

Una de las ventajas más importantes de sangerFlow es su eficiencia. Puede procesar grandes cantidades de muestras sin requerir que los usuarios manejen los datos manualmente en cada paso. Esto es particularmente útil durante proyectos de vigilancia donde se necesitan analizar muchas muestras en poco tiempo.

Otro beneficio es que sangerFlow requiere una instalación mínima de software. Los usuarios solo necesitan tener dos herramientas específicas, Nextflow y Singularity, en sus computadoras. Esto reduce las posibilidades de tener problemas con diferentes versiones de software, que a veces pueden complicar tareas.

La guía de usuario y la documentación disponibles facilitan a las personas con diferentes niveles de habilidad implementar sangerFlow. Incluso aquellos sin experiencia extensa en programación pueden usarlo de manera efectiva.

Aplicación en el mundo real

sangerFlow se ha implementado con éxito en varios proyectos de vigilancia. Por ejemplo, se procesaron cientos de muestras utilizando esta herramienta, demostrando su capacidad en situaciones del mundo real.

Para mostrar su efectividad, los investigadores realizaron pruebas usando conjuntos de datos disponibles públicamente. Proporcionaron los datos necesarios a sangerFlow y lo dejaron procesar todo automáticamente. Los resultados se organizaron en nuevos directorios donde se almacenó toda la información relevante para un fácil acceso.

En una prueba específica, los investigadores compararon los resultados de sangerFlow con métodos de procesamiento manual. Empezaron usando herramientas tradicionales para limpiar las secuencias y prepararlas para el análisis. Luego, ejecutaron sangerFlow en los mismos conjuntos de datos. Los resultados mostraron que ambos métodos produjeron resultados consistentes, confirmando la fiabilidad de sangerFlow.

Resumen

sangerFlow es una herramienta innovadora diseñada para simplificar el análisis de datos de secuenciación Sanger. Al automatizar el proceso, ayuda a los científicos a identificar especies rápidamente sin necesidad de mucho trabajo manual. Esto es particularmente útil en escenarios donde el análisis rápido es crucial, como en bioseguridad o gestión de plagas.

El diseño eficiente de la herramienta y su configuración fácil la hacen accesible para un amplio rango de usuarios. Con su rendimiento demostrado en varias aplicaciones, sangerFlow se presenta como un recurso valioso en diagnósticos moleculares e identificación genética.

En resumen, sangerFlow puede agilizar todo el proceso de análisis de datos de secuenciación Sanger, facilitando a los científicos concentrarse en investigar y entender los organismos que estudian.

Fuente original

Título: sangerFlow, a Sanger sequencing-based bioinformatics pipeline for pests and pathogens identification

Resumen: Sequencing of a Polymerase Chain Reaction product (amplicon) is called amplicon sequencing. Amplicon sequencing allows for reliable identification of an organism by amplifying, sequencing, and analysing a single conserved marker gene or DNA barcode. As this approach generally involves a single gene, it is a light-weight protocol compared to multi-locus or whole genome sequencing for diagnostic purposes; yet considerably reliable. Therefore, Sanger-based high-quality amplicon sequencing is widely deployed for species identification and high-throughput biosecurity surveillance. However, keeping up with the data analysis in a large-scale surveillance or diagnostic settings could be a limiting factor because it involves manual quality control of the raw sequencing data, alignment of the forward and reverse reads, and finally web-based Blastn search of all the amplicons. Here, we present a bioinformatics pipeline that automates the entire analysis. As a result, the pipeline is scalable with high-volume of samples and reproducible. Furthermore, the pipeline leverages the modern open-source Nextflow and Singularity concept, thus it does not require software installation except Nextflow and Singularity, software subscription, or programming expertise from the end users making it widely adaptable. Availability and implementationsangerFlow source code and documentation are freely available for download at GitHub, implemented in Nextflow and Singularity.

Autores: M Asaduzzaman Prodhan, M. Power, M. Kehoe

Última actualización: 2024-05-14 00:00:00

Idioma: English

Fuente URL: https://www.biorxiv.org/content/10.1101/2024.05.10.593518

Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.05.10.593518.full.pdf

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares