Desafíos y aprendizajes en el aprendizaje automático para la investigación de la vida salvaje
Este artículo habla sobre el papel del aprendizaje automático en la comprensión del comportamiento animal.
Charlotte Christensen, A. Ferreira, W. Cherono, M. Maximiadi, B. Nyaguthii, M. Ogino, D. Herrera, D. Farine
― 10 minilectura
Tabla de contenidos
Los avances recientes en tecnología han mejorado significativamente cómo recopilamos y analizamos datos sobre los animales. Usando herramientas como GPS y acelerómetros, los investigadores pueden rastrear dónde se mueven los animales, qué hacen y con quién interactúan. Esto ha permitido a los científicos recopilar un montón de datos en un tiempo relativamente corto, lo cual es genial para entender el comportamiento animal.
Sin embargo, con la capacidad de recopilar tantos datos también viene el desafío de dar sentido a todo eso. El Aprendizaje automático, una rama de la informática, ayuda a los investigadores a analizar grandes cantidades de datos de manera rápida y eficiente. Por ejemplo, el aprendizaje automático puede categorizar miles de imágenes de animales de trampas de cámara mucho más rápido de lo que una persona podría. Esto ayuda a los investigadores a estudiar diferentes especies y sus comportamientos con menos personal y tiempo.
A pesar de estos avances, hay muchos estudios que pueden no publicarse debido al mal rendimiento de los modelos de aprendizaje automático utilizados. Si un modelo no funciona bien, puede llevar a un sesgo en la publicación de investigaciones, lo que significa que solo se publican los estudios con modelos que parecen exitosos, mientras que los de bajo rendimiento se pasan por alto. Esto puede crear una imagen engañosa de cuán efectivos son realmente estos modelos.
Cuando un modelo de aprendizaje automático no rinde bien, los investigadores invierten tiempo y esfuerzo en mejorarlo. Esto a menudo implica probar diferentes configuraciones o enfoques, lo cual puede ser un proceso largo y tedioso. Generalmente, la mejor manera de mejorar el rendimiento de un modelo es aumentar la cantidad de datos de entrenamiento, pero recopilar más datos puede ser complicado. El tiempo y los recursos necesarios para recolectar datos adicionales, así como la dificultad para observar ciertos comportamientos o especies, pueden hacer esto difícil.
Además, incluso cuando los investigadores recopilan más datos, lleva mucho tiempo clasificarlos y etiquetarlos con precisión. Por ejemplo, pueden necesitar etiquetar muchas horas de grabaciones de video o imágenes, lo cual puede ser una tarea abrumadora. Así, mejorar el rendimiento de un modelo a menudo se convierte en una experiencia frustrante.
La necesidad de entender los errores del modelo
Para aprovechar mejor el tiempo de investigación, es importante entender por qué los modelos pueden no funcionar como se espera. A menudo, cuando el Rendimiento del modelo es pobre, se asume que los datos de entrenamiento son insuficientes o no lo suficientemente diversos. En algunos casos, las categorías que se están prediciendo pueden ser tan similares que causan confusión en el modelo. Sin embargo, el verdadero problema puede estar en nuestras suposiciones sobre los datos que se utilizan para el entrenamiento.
Los modelos de aprendizaje automático a menudo se utilizan para categorizar comportamientos específicos de los animales, pero los datos del mundo real pueden ser continuos y complejos. Los comportamientos no siempre encajan perfectamente en categorías claras; en cambio, pueden superponerse o transitar de un estado a otro. Por ejemplo, un animal puede pasar de comer a moverse, y puede ser difícil identificar exactamente cuándo ocurre ese cambio. Estas diferencias sutiles pueden crear ambigüedad en el etiquetado, incluso para observadores experimentados.
El etiquetado inexacto de datos es un desafío significativo, aunque a menudo pasado por alto, en la evaluación del rendimiento del modelo. Aunque podemos pensar que los errores en el etiquetado limitarían la capacidad del modelo para funcionar bien, algunas investigaciones sugieren que los modelos de aprendizaje automático pueden manejar un grado de etiquetado incorrecto. El verdadero problema es que los errores durante el proceso de etiquetado pueden sesgar nuestra capacidad para evaluar el rendimiento del modelo, dificultando determinar cuán bien realmente está funcionando.
Al probar el rendimiento de un modelo, es esencial mirar más allá de métricas de rendimiento como la precisión o las puntuaciones F1. Estas puntuaciones pueden ser engañosas cuando hay errores en las etiquetas utilizadas para la validación. Si un modelo predice una etiqueta correctamente, pero esa etiqueta es incorrecta debido a un error humano, aún será penalizado. Por lo tanto, entender el rendimiento del modelo requiere mirar cómo se relaciona con hipótesis biológicas en lugar de confiar solo en números.
El papel de las métricas de rendimiento
Es crucial recordar que solo porque un modelo tenga un rendimiento por debajo de lo esperado según métricas tradicionales, no significa que no sea útil. Para los biólogos y ecólogos, el objetivo suele ser utilizar estos modelos para facilitar la investigación y probar preguntas biológicas relevantes, en lugar de solo alcanzar altas puntuaciones de rendimiento.
En ecología y evolución, el rendimiento del modelo a menudo se evalúa según qué tan bien puede ayudar a probar hipótesis, en lugar de su capacidad para predecir con precisión puntos de datos individuales. Los modelos estadísticos tradicionales están diseñados para tener en cuenta el ruido y los errores en los datos biológicos, lo que significa que los investigadores ya pueden manejar un cierto nivel de imprecisión en sus análisis. Por lo tanto, maximizar las métricas de rendimiento no siempre es necesario-o incluso beneficioso.
Un enfoque diferente podría implicar usar modelos que funcionen a un nivel aceptable en lugar de aquellos que maximizan las métricas. Los investigadores deberían enfocarse en si un modelo es lo suficientemente bueno para las preguntas biológicas que están investigando.
Nuevas perspectivas sobre la evaluación del rendimiento del modelo
Este trabajo destaca nuevas formas de evaluar el rendimiento de los modelos de aprendizaje automático en el contexto de probar hipótesis biológicas. Como ejemplo, consideremos un estudio sobre el gallo de guinea vulturino, donde los investigadores recopilaron datos usando acelerómetros para identificar diferentes comportamientos. Al analizar estos datos de comportamiento con aprendizaje automático, los investigadores pueden determinar varias actividades sin necesidad de observar a las aves directamente.
En el caso del gallo de guinea vulturino, los investigadores utilizaron un enfoque popular de aprendizaje automático (modelos de bosques aleatorios) para categorizar comportamientos basados en etiquetas asignadas a partir de grabaciones de video. También compararon etiquetas de diferentes observadores para entender de dónde podrían venir los errores. Esta comparación reveló que las diferencias de opinión entre observadores podían llevar a subestimar el rendimiento del modelo.
A pesar de producir algunos errores en las predicciones, los modelos aún pueden ser útiles para probar hipótesis biológicas. Los investigadores crearon una simulación para evaluar si los modelos imperfectos aún podían detectar cambios biológicos reales. Al manipular los datos, examinaron cómo se podrían detectar cambios en los comportamientos, incluso si el modelo cometía algunos errores.
Lo que descubrió la investigación fue que, incluso aunque los modelos produjeran algunas estimaciones ruidosas, todavía podían detectar eficazmente cambios predichos en el comportamiento. Esto sugiere que incluso los modelos con algunos errores pueden ser útiles en la investigación biológica, siempre que se prueben rigurosamente.
Validación Biológica en modelos de aprendizaje automático
Un desafío significativo con el aprendizaje automático en biología es aplicar modelos a nuevos datos fuera del conjunto de entrenamiento. Por ejemplo, los investigadores podrían querer usar sus modelos en datos recopilados de animales recién etiquetados o en datos obtenidos de diferentes ubicaciones. Para abordar esto, los científicos proponen usar un método llamado validación biológica. Este proceso implica confirmar que el modelo produce información significativa antes de aplicarlo a nuevas situaciones.
Para ilustrar este concepto, los investigadores realizaron una validación biológica sobre el gallo de guinea vulturino. Confirmaron que el modelo podría detectar patrones esperados, como aves alimentándose cerca de parches de comida. Al analizar con qué frecuencia las aves buscaban alimento y si sus actividades coincidían con comportamientos conocidos, los investigadores pudieron demostrar la validez del modelo.
Además, los investigadores examinaron diferentes comportamientos para ver qué tan bien podía identificar y distinguir el modelo bajo varios escenarios. Por ejemplo, observaron las diferencias en el comportamiento durante el día y la noche y los niveles de actividad entre grupos sociales. Los modelos produjeron resultados que confirmaron expectativas basadas en el conocimiento previo, demostrando su utilidad para probar preguntas biológicas.
Mejorando la evaluación del modelo
El análisis del acuerdo entre observadores mostró cómo los errores humanos en el etiquetado pueden llevar a métricas de rendimiento poco confiables. Para mejorar estos modelos, los investigadores pueden tomar medidas para aumentar el acuerdo entre observadores mediante una mejor capacitación, guías más claras y sesiones de observación más cortas.
Si bien es natural querer métricas de alto rendimiento, los investigadores deben recordar que combinar categorías que a menudo se confunden puede dar lugar a puntuaciones artificialmente altas, pero puede obstaculizar los objetivos de investigación. Fusionar categorías puede llevar a perder distinciones importantes que son relevantes para preguntas biológicas específicas.
Además, es esencial reconocer que no todos los modelos alcanzarán el rendimiento esperado. Los investigadores deben entender los posibles errores y equivocaciones, ya que estos pueden afectar las métricas de rendimiento reportadas, incluso si el modelo en sí está funcionando bien.
Conclusión
En conclusión, aunque los modelos de aprendizaje automático pueden mejorar las capacidades de la investigación sobre la vida silvestre, es crucial abordar su evaluación de manera reflexiva. Confiar únicamente en métricas de rendimiento puede no proporcionar una imagen completa de la utilidad de un modelo, especialmente cuando se trata de hipótesis biológicas.
Al centrarse en validar modelos a través de simulaciones y probar hipótesis específicas, los investigadores pueden evaluar mejor cómo estos modelos pueden contribuir a la comprensión científica. Este enfoque no solo ayuda a mejorar la calidad de la investigación, sino que también fomenta la confianza de que los conocimientos obtenidos de estos modelos están fundamentados en la realidad biológica.
En última instancia, a medida que el aprendizaje automático siga integrándose en la investigación ecológica, es vital adoptar una visión más holística de la evaluación del modelo. Al comprender las complejidades del Etiquetado de datos y las limitaciones inherentes al rendimiento del modelo, los investigadores pueden trabajar para crear mejores herramientas para el estudio y la conservación de la vida silvestre. Esto asegurará que los hallazgos sean sólidos y que la investigación contribuya positivamente a nuestro entendimiento del comportamiento animal y la ecología.
Título: Moving towards more holistic validation of machine learning-based approaches in ecology and evolution
Resumen: O_LIMachine-learning (ML) is revolutionizing the study of ecology and evolution, but the performance of models (and their evaluation) is dependent on the quality of the training and validation data. Currently, we have standard metrics for evaluating model performance (e.g., precision, recall, F1), but these to some extent overlook the ultimate aim of addressing the specific research question to which the model will be applied. As improving performance metrics has diminishing returns, particularly when data is inherently noisy, biologists are often faced with the conundrum of investing more time in maximising performance metrics at the expense of doing the actual research. This leads to the question: how much noise can we accept in our ML models? C_LIO_LIHere, we start by describing an under-reported source of noise that can cause performance metrics to underestimate true model performance. Specifically, ambiguity between categories or mistakes in labelling of the validation data produces hard ceilings that limit performance metric scores. This common source of error in biological systems means that many models could be performing better than the metrics suggest. C_LIO_LINext, we argue and show that imperfect models (e.g. low F1 scores) can still useable. We first propose a simulation framework to evaluate the robustness of a model for hypothesis testing. Second, we show how to determine the utility of the models by supplementing existing performance metrics with biological validations that involve applying ML models to unlabelled data in different ecological contexts for which we can anticipate the outcome. C_LIO_LITogether, our simulations and case study show that effects sizes and expected biological patterns can be detected even when performance metrics are relatively low (e.g., F1 between 60-70%). In doing so, we provide a roadmap for validation approaches of ML models that are tailored to research in ecology and evolutionary biology. C_LI
Autores: Charlotte Christensen, A. Ferreira, W. Cherono, M. Maximiadi, B. Nyaguthii, M. Ogino, D. Herrera, D. Farine
Última actualización: 2024-10-21 00:00:00
Idioma: English
Fuente URL: https://www.biorxiv.org/content/10.1101/2024.10.18.618969
Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.10.18.618969.full.pdf
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.