Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Mejorando la estimación de la pose del ratón con datos sintéticos

Un nuevo método estima las posturas de los cuerpos de ratones a partir de imágenes sin etiquetar usando datos sintéticos.

― 6 minilectura


Datos sintéticos para lasDatos sintéticos para lasposes de ratonesratones sin anotaciones manuales.Nuevo método estima las poses de
Tabla de contenidos

Rastrear y medir el comportamiento de los animales es clave en campos como la biología, la ecología y la neurociencia. Los ratones se usan mucho en investigaciones, especialmente para enfermedades neurodegenerativas como el Alzheimer y el Parkinson. A medida que avanza la investigación, se ha recopilado un montón de datos en video para estudiar estos temas. Sin embargo, muchos métodos de visión por computadora no se pueden aplicar debido a la falta de anotaciones. Este artículo habla de un nuevo método para estimar las poses corporales de los ratones a partir de imágenes no etiquetadas usando datos sintéticos.

La Necesidad de Mejores Herramientas

Tradicionalmente, medir el comportamiento de los ratones requería un buen montón de trabajo manual. Los investigadores tenían que revisar un montón de fotogramas de video para identificar y registrar la posición de cada extremidad. Este método no solo es lento, sino que también es propenso a errores. Las primeras técnicas de visión por computadora intentaron reducir el esfuerzo humano usando marcadores físicos o pintura en los animales. Sin embargo, estos métodos tienen sus propios inconvenientes. Los marcadores pueden alterar el comportamiento natural del animal y los datos recopilados pueden ser limitados dependiendo de dónde se coloquen los marcadores.

En los últimos años, los avances en visión por computadora han introducido sistemas de rastreo sin marcadores. Estos sistemas dependen menos de marcadores físicos, pero aún requieren una buena cantidad de esfuerzo manual para procesar los datos de video. Las técnicas de aprendizaje profundo supervisado se han vuelto populares para estimar poses tanto en humanos como en animales. Sin embargo, su efectividad a menudo depende de tener acceso a grandes cantidades de datos anotados, que pueden ser difíciles de conseguir para muchas especies animales.

Nuestro Enfoque

En este estudio, proponemos un nuevo método para predecir las poses corporales de los ratones usando imágenes no etiquetadas. En lugar de depender de métodos totalmente supervisados, adaptamos una técnica auto-supervisada diseñada originalmente para poses humanas. Nuestro método utiliza una Red Generativa Antagónica (GAN) para aprender de imágenes no etiquetadas y un conjunto de Poses 2D no emparejadas generadas a partir de un modelo 3D de un ratón.

Al evitar la necesidad de anotación manual, podemos entrenar eficientemente nuestro modelo usando datos que a menudo están disponibles en grandes cantidades pero carecen de etiquetas detalladas. Este enfoque también nos permite generar una amplia variedad de poses para que el modelo aprenda, aumentando su flexibilidad y aplicabilidad.

Cómo Funciona

Nuestro método comienza usando un modelo 3D de un ratón para crear poses 2D que servirán como previo para el entrenamiento. En lugar de necesitar imágenes emparejadas y anotaciones de poses, usamos solo las poses sintéticas. Estas poses sintéticas incluyen diferentes posiciones de las articulaciones del ratón, como el hocico, la cola y las extremidades.

El modelo de estimación de poses consiste en un proceso de mapeo en dos etapas. La primera parte incluye alimentar una imagen de entrada en una Red Neuronal Convolucional (CNN) que produce una imagen esquelética. Finalmente, la segunda parte toma la imagen esquelética y la mapea a una representación de pose 2D.

Durante el entrenamiento, usamos una función de pérdida que chequea la diferencia entre la imagen generada y la imagen de entrada, mide el mapeo de la imagen esquelética a las posiciones de las articulaciones y evalúa la autenticidad de las imágenes esqueléticas. Usando esta combinación de pérdidas, podemos refinar el modelo de manera efectiva y asegurar predicciones de poses más precisas.

Conjunto de Datos y Metodología

Nuestro conjunto de datos consiste en videos de ratones sometidos a varias pruebas relacionadas con la ELA. Cada video captura a los ratones corriendo en una caminadora, y extraímos imágenes de estos videos para entrenar a nuestro estimador de poses. Dividimos el conjunto de datos en imágenes de entrenamiento y prueba para evaluar el rendimiento del modelo.

Grabamos a los ratones usando un montaje especial que nos permitió capturar sus movimientos con claridad. Los datos recopilados durante estas pruebas fueron extensos, dándonos una base sólida para entrenar a nuestro modelo.

Evaluación de Resultados

Para evaluar qué tan bien nuestro modelo podría predecir poses 2D, usamos una métrica llamada Error Medio Por Posición de Articulación (MPJPE). Esto evalúa la precisión comparando las posiciones de las articulaciones predichas con un conjunto de anotaciones de verdad fundamental. En nuestras pruebas, también comparamos las predicciones de nuestro modelo con un método supervisado bien conocido, DeepLabCut, que se usa a menudo para estimación de poses en animales.

Aunque los resultados mostraron que DeepLabCut tuvo un rendimiento ligeramente mejor debido a su dependencia de anotaciones humanas, nuestro método Auto-supervisado aún dio resultados impresionantes. Las predicciones de nuestro modelo coincidieron de cerca con la verdad fundamental, demostrando su potencial para una estimación de poses precisa mientras requería significativamente menos esfuerzo de anotación.

Adaptándose a Otros Animales

Una de las principales ventajas de nuestro enfoque es su adaptabilidad a diferentes especies animales. Para demostrar esto, probamos el modelo en imágenes de caballos. El previo sintético para estas pruebas se generó usando un modelo 3D de un caballo. A pesar de que nuestro modelo fue entrenado principalmente con imágenes de ratones, aún funcionó bien con las imágenes de caballos.

También probamos el modelo usando imágenes de cebras. Notablemente, el modelo pudo generalizar y producir predicciones razonables de poses para las cebras también. Esta adaptabilidad destaca el potencial de nuestro método para aplicarse en diversos ámbitos sin requerir un reentrenamiento extenso o esfuerzos de recopilación de datos.

Conclusión

En conclusión, hemos adaptado con éxito un enfoque auto-supervisado para la estimación de poses 2D para trabajar con ratones, utilizando datos sintéticos para minimizar la necesidad de anotaciones manuales. Esta técnica no solo agiliza el proceso de entrenamiento, sino que también abre oportunidades para un despliegue rápido en diversas áreas de investigación que involucran estudios sobre el comportamiento animal.

Al generar y usar efectivamente un previo sintético, hemos demostrado que nuestro modelo puede lograr resultados competitivos en comparación con los métodos supervisados, todo mientras se basa en datos reales no etiquetados. El trabajo futuro implicará aplicar esta metodología para estudiar los patrones de marcha en ratones genéticamente modificados con ELA, proporcionando valiosas ideas sobre el desarrollo de enfermedades neurodegenerativas.

Nuestra investigación enfatiza la importancia de desarrollar herramientas eficientes para rastrear el comportamiento animal, contribuyendo en última instancia a una mejor comprensión de procesos biológicos complejos.

Fuente original

Título: Of Mice and Pose: 2D Mouse Pose Estimation from Unlabelled Data and Synthetic Prior

Resumen: Numerous fields, such as ecology, biology, and neuroscience, use animal recordings to track and measure animal behaviour. Over time, a significant volume of such data has been produced, but some computer vision techniques cannot explore it due to the lack of annotations. To address this, we propose an approach for estimating 2D mouse body pose from unlabelled images using a synthetically generated empirical pose prior. Our proposal is based on a recent self-supervised method for estimating 2D human pose that uses single images and a set of unpaired typical 2D poses within a GAN framework. We adapt this method to the limb structure of the mouse and generate the empirical prior of 2D poses from a synthetic 3D mouse model, thereby avoiding manual annotation. In experiments on a new mouse video dataset, we evaluate the performance of the approach by comparing pose predictions to a manually obtained ground truth. We also compare predictions with those from a supervised state-of-the-art method for animal pose estimation. The latter evaluation indicates promising results despite the lack of paired training data. Finally, qualitative results using a dataset of horse images show the potential of the setting to adapt to other animal species.

Autores: Jose Sosa, Sharn Perry, Jane Alty, David Hogg

Última actualización: 2023-07-25 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2307.13361

Fuente PDF: https://arxiv.org/pdf/2307.13361

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares