Enfoques de Aprendizaje Automático para Identificar Galaxias de Radio
Este estudio desarrolla técnicas de aprendizaje automático para identificar mejor galaxias de radio poderosas.
― 7 minilectura
Tabla de contenidos
- Antecedentes
- El Desafío
- Metodología
- Recolección de Datos
- Modelos de Aprendizaje Automático
- Entrenamiento y Prueba
- Resultados
- Rendimiento de Clasificación AGN-Galaxia
- Predicciones de Detección de Radio
- Predicciones de Corrimiento al Rojo
- Discusión
- Importancia de las Características
- Implicaciones para el Futuro
- Conclusión
- Fuente original
- Enlaces de referencia
Los Núcleos Galácticos Activos (AGN) son regiones fascinantes que se encuentran en el centro de las galaxias, donde residen Agujeros Negros Supermasivos. Estos agujeros negros pueden ser muy poderosos e influyen en su entorno de muchas maneras. Entender los AGN es clave para descifrar cómo crecen y evolucionan las galaxias con el tiempo. Este estudio se centra en la relación entre los AGN y las Galaxias de radio, que son tipos específicos de AGN que emiten ondas de radio fuertes. Nuestro objetivo es encontrar nuevos métodos para identificar estas potentes galaxias de radio utilizando técnicas de Aprendizaje automático.
Antecedentes
Los AGN son importantes por varias razones. Una razón principal es que pueden ayudarnos a aprender sobre cómo se forman y crecen los agujeros negros supermasivos. También iluminan las conexiones entre agujeros negros, formación de estrellas y la evolución de las galaxias. Los AGN pueden liberar cantidades inmensas de energía, lo que nos permite estudiar las interacciones entre los agujeros negros y sus galaxias anfitrionas.
Las galaxias de radio son un subconjunto de los AGN que emiten ondas de radio sustanciales. Tradicionalmente, se usaban emisiones de radio para identificar la actividad de los AGN, pero en los últimos años, las encuestas ópticas y de rayos X han tomado ese rol. Sin embargo, los avances en la astronomía de radio han hecho posible detectar más galaxias de radio que nunca.
El Desafío
A pesar de las mejoras en técnicas y tecnología, todavía hay desafíos para identificar con precisión las galaxias de radio. Gran parte de esto proviene de datos limitados y de una falta de entendimiento sobre qué causa las emisiones de radio. Además, muchas galaxias de radio potenciales podrían pasar desapercibidas debido a la forma en que se realizan las observaciones.
Para abordar estos problemas, nuestro objetivo es desarrollar un enfoque de aprendizaje automático que pueda predecir si una fuente es una galaxia de radio. Al hacerlo, podemos aumentar el número de AGN de radio conocidos, lo que nos ayudará a entender la relación entre los AGN y su entorno.
Metodología
Diseñamos una serie de modelos de aprendizaje automático que trabajan juntos para predecir qué fuentes son probablemente AGN y si pueden ser detectadas en encuestas de radio. Nuestro enfoque se basa principalmente en datos derivados de varias longitudes de onda, centrándonos en observaciones fotométricas de catálogos existentes.
Recolección de Datos
Los datos para nuestro estudio provienen de múltiples fuentes. Un conjunto de datos clave es el catálogo CatWISE2020, que contiene detecciones en infrarrojo cercano (NIR) de fuentes celestiales. Este conjunto de datos nos permite extraer mediciones fotométricas importantes como el brillo en diferentes bandas.
Además, recopilamos datos de múltiples longitudes de onda de otros catálogos para identificar posibles contrapartes de las fuentes celestiales en nuestro estudio. Observaciones de alta calidad son esenciales para asegurar predicciones precisas.
Modelos de Aprendizaje Automático
Desarrollamos tres modelos distintos de aprendizaje automático para alcanzar nuestros objetivos:
Modelo de Clasificación AGN-Galaxia: Este modelo determina si una fuente es un AGN o una galaxia según sus propiedades fotométricas.
Modelo de Detección de Radio: Para fuentes identificadas como AGN, este modelo predice si pueden ser detectadas en longitudes de onda de radio.
Modelo de Predicción de Corrimiento al Rojo: Este modelo final predice los valores de corrimiento al rojo para aquellos AGN detectados en radio.
Al utilizar múltiples modelos, podemos refinar nuestras predicciones, mejorando la precisión general de nuestros hallazgos.
Entrenamiento y Prueba
Para entrenar nuestros modelos, usamos un subconjunto de datos donde las fuentes ya han sido clasificadas como AGN o galaxias. Durante la etapa de entrenamiento, optimizamos los parámetros del modelo y seleccionamos las características más relevantes para mejorar el rendimiento de las predicciones.
Probar los modelos implicó usar datos que no se habían visto durante el entrenamiento para asegurar que los modelos pudieran generalizar bien a nuevas fuentes. Al evaluar los resultados, pudimos valorar la efectividad de cada modelo y de todo el proceso de predicción.
Resultados
Los resultados de nuestros modelos mostraron un rendimiento prometedor en la identificación de AGN y su naturaleza detectable en radio.
Rendimiento de Clasificación AGN-Galaxia
El modelo de clasificación AGN-galaxia tuvo un buen desempeño, identificando con éxito un número significativo de AGN dentro del conjunto de datos proporcionado. El modelo se basó en características fotométricas, especialmente en ciertas combinaciones de colores que distinguen a los AGN de las galaxias normales.
Predicciones de Detección de Radio
Para los AGN identificados, evaluamos su detectabilidad en radio usando el modelo de detección de radio. El modelo demostró una fuerte capacidad para identificar AGN que probablemente emitan ondas de radio, superando a los métodos de selección aleatoria.
Predicciones de Corrimiento al Rojo
Por último, nuestro modelo de predicción de corrimiento al rojo pudo estimar con precisión las distancias de los AGN. Esta información es crucial para entender la evolución de estas galaxias con el tiempo.
Discusión
Los resultados indican que el aprendizaje automático puede mejorar significativamente la identificación de galaxias de radio y proporcionar valiosos conocimientos sobre sus propiedades. Al combinar predicciones de múltiples modelos, podemos mejorar nuestro entendimiento sobre los AGN y su conexión con la evolución de las galaxias.
Importancia de las Características
Analizar la importancia de las características reveló que ciertas mediciones fotométricas, particularmente en las bandas de infrarrojo cercano, jugaron un papel crítico en la predicción de AGN. Esto sugiere que estas mediciones son indicadores clave para identificar AGN dentro de un conjunto de datos.
Implicaciones para el Futuro
Con el rápido avance en la astronomía de radio y el desarrollo de futuros observatorios, nuestros métodos se volverán cada vez más esenciales para procesar y analizar grandes cantidades de datos. A medida que entren en funcionamiento instrumentos más potentes, el potencial para descubrir nuevas galaxias de radio crecerá, y nuestra pipeline de aprendizaje automático puede adaptarse a estos nuevos conjuntos de datos.
Conclusión
En conclusión, este estudio presentó una pipeline de aprendizaje automático diseñada para mejorar la identificación de poderosas galaxias de radio. A través del desarrollo y aplicación de múltiples modelos, demostramos con éxito el potencial del aprendizaje automático en el campo de la astrofísica. Nuestros hallazgos sugieren que este enfoque puede mejorar significativamente nuestro entendimiento de los AGN y su papel en la evolución de las galaxias. A medida que la tecnología avance, el marco que establecimos puede ser perfeccionado aún más para abordar preguntas más complejas en astronomía.
La necesidad de herramientas que puedan analizar rápidamente vastos conjuntos de datos será crucial a medida que el campo continúe evolucionando. Nuestro trabajo contribuye a este esfuerzo y sienta las bases para futuros descubrimientos en el ámbito de los núcleos galácticos activos y la astronomía de radio.
Título: Selection of powerful radio galaxies with machine learning
Resumen: We developed and trained a pipeline of three machine learning (ML) models than can predict which sources are more likely to be an AGN and to be detected in specific radio surveys. Also, it can estimate redshift values for predicted radio-detectable AGNs. These models, which combine predictions from tree-based and gradient-boosting algorithms, have been trained with multi-wavelength data from near-infrared-selected sources in the Hobby-Eberly Telescope Dark Energy Experiment (HETDEX) Spring field. Training, testing, calibration, and validation were carried out in the HETDEX field. Further validation was performed on near-infrared-selected sources in the Stripe 82 field. In the HETDEX validation subset, our pipeline recovers 96% of the initially labelled AGNs and, from AGNs candidates, we recover 50% of previously detected radio sources. For Stripe 82, these numbers are 94% and 55%. Compared to random selection, these rates are two and four times better for HETDEX, and 1.2 and 12 times better for Stripe 82. The pipeline can also recover the redshift distribution of these sources with $\sigma_{\mathrm{NMAD}}$ = 0.07 for HETDEX ($\sigma_{\mathrm{NMAD}}$ = 0.09 for Stripe 82) and an outlier fraction of 19% (25% for Stripe 82), compatible with previous results based on broad-band photometry. Feature importance analysis stresses the relevance of near- and mid-infrared colours to select AGNs and identify their radio and redshift nature. Combining different algorithms in ML models shows an improvement in the prediction power of our pipeline over a random selection of sources. Tree-based ML models (in contrast to deep learning techniques) facilitate the analysis of the impact that features have on the predictions. This prediction can give insight into the potential physical interplay between the properties of radio AGNs (e.g. mass of black hole and accretion rate).
Autores: R. Carvajal, I. Matute, J. Afonso, R. P. Norris, K. J. Luken, P. Sánchez-Sáez, P. A. C. Cunha, A. Humphrey, H. Messias, S. Amarantidis, D. Barbosa, H. A. Cruz, H. Miranda, A. Paulino-Afonso, C. Pappalardo
Última actualización: 2023-12-01 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2309.11652
Fuente PDF: https://arxiv.org/pdf/2309.11652
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://quasars.org/milliquas.htm
- https://doi.org/10.1111/2041-210X.14071
- https://doi.org/10.1111/j.2517-6161.1974.tb00994.x
- https://scikit-learn.org
- https://github.com/slundberg/shap
- https://github.com/linkedin/fasttreeshap
- https://lofar-surveys.org/
- https://www.star.bris.ac.uk/~mbt/topcat/
- https://jupyter.org
- https://pycaret.org
- https://pandas.pydata.org
- https://www.astropy.org
- https://betacal.github.io
- https://github.com/1313e/CMasher
- https://github.com/ray-project/tune-sklearn