Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Mejorando la estimación de profundidad para drones usando una cámara

Nuevos métodos mejoran cómo los drones miden la distancia a los objetos.

― 7 minilectura


Avance en la estimaciónAvance en la estimaciónde profundidad con dronesla medición de distancias para drones.Nuevas técnicas mejoran drásticamente
Tabla de contenidos

En los últimos años, el uso de drones, o vehículos aéreos no tripulados (UAVs), ha crecido bastante. Estas máquinas voladoras se están utilizando para muchas tareas, como servicios de entrega, vigilancia y monitoreo agrícola. Para volar de manera segura, los UAVs necesitan detectar y evitar otros objetos en el cielo, ahí es donde entran los sistemas avanzados.

Los sistemas de Detección y Evitación (DAA) están diseñados para ayudar a los UAVs a encontrar y alejarse de posibles colisiones con otros objetos en el aire. Para que los sistemas DAA sean efectivos, deben saber no solo qué objetos hay alrededor, sino también qué tan lejos están. Los métodos tradicionales de detección de objetos suelen proporcionar información sobre la posición de los objetos en un espacio bidimensional, pero no dan información sobre qué tan lejos están esos objetos en tres dimensiones.

Este artículo habla sobre un estudio que busca mejorar cómo los UAVs pueden estimar la distancia a los objetos usando solo una cámara. El estudio presenta nuevos métodos para la estimación de profundidad, centrándose en cómo determinar la distancia de los objetos a largas distancias.

La Necesidad de la Estimación de Profundidad

La capacidad de estimar la profundidad es crucial para que los UAVs eviten choques. Si un dron no sabe qué tan lejos están otros objetos, no puede tomar decisiones a tiempo para evitarlos. Esto es especialmente importante para drones pequeños que no pueden llevar sensores pesados como lidar o radar, que a menudo se usan para medir distancias. Usar una sola cámara para la estimación de profundidad es una solución más práctica.

En la conducción autónoma, existen desafíos similares, y se han desarrollado muchas técnicas para ayudar a los vehículos a entender su entorno. Sin embargo, estos métodos pueden no ser aplicables directamente a los UAVs debido a las diferencias en cómo funcionan estos dos campos. Por ejemplo, los UAVs necesitan detectar objetos a distancias mucho mayores que los coches, lo que cambia el enfoque necesario para una medición de profundidad efectiva.

Los Métodos Propuestos

El estudio presenta nuevas técnicas para mejorar la estimación de profundidad para UAVs usando una sola cámara.

Dos Nuevas Técnicas de Codificación

  1. Codificación Sigmoidal: Este método transforma los valores de profundidad usando una función matemática que ayuda a asegurar que los valores siempre sean positivos y se ajusten a un rango específico. Esto evita problemas donde el modelo podría predecir distancias negativas poco realistas.

  2. Codificación Tipo ReLU: Similar a la codificación sigmoidal, esta técnica también asegura que los valores de profundidad sean positivos. Sin embargo, usa una estructura matemática diferente que simplifica el proceso de predicción manteniendo la precisión.

Ver la Profundidad como un Problema de Clasificación

El estudio también sugiere otra forma de estimar la profundidad tratándola como un problema de clasificación en lugar de un problema de regresión. Este método implica dividir la distancia en rangos específicos o 'bins' y entrenar al modelo para identificar en cuál bin cae un objeto basado en la vista de la cámara.

Se introduce una nueva función llamada Soft-Argmax. Esta función proporciona una forma más matizada de evaluar qué tan cerca está una predicción del verdadero bin de profundidad, teniendo en cuenta qué tan lejos puede estar la predicción.

La Métrica de Puntuación de Aptitud

Para evaluar qué tan bien funcionan los métodos propuestos, el estudio introduce la Puntuación de Aptitud. Esta puntuación combina los resultados de la detección de objetos y la estimación de profundidad en una única métrica de rendimiento. Al usar la Puntuación de Aptitud, se vuelve más fácil evaluar la efectividad de diferentes métodos de manera unificada.

Pruebas de los Métodos

Los investigadores realizaron varias pruebas utilizando un conjunto de datos diseñado para el seguimiento de objetos en vuelo. Este conjunto de datos proporcionó imágenes de varios objetos voladores, anotadas con sus posiciones y distancias. Usando estas imágenes, pudieron entrenar sus modelos y evaluar qué tan bien funcionaban los nuevos métodos de estimación de profundidad.

Grupos Experimentales

Las pruebas se dividieron en tres grupos principales según cómo se enmarcó la estimación de profundidad:

  1. Métodos de Regresión: Aquí, el objetivo era predecir un valor de profundidad continuo directamente.
  2. Métodos de Clasificación por Bin: Este grupo se centró en clasificar objetos en rangos de distancia discretos.
  3. Métodos de Regresión Ordinal: Este método trató la estimación de profundidad como un problema de clasificación ordenada, donde los bins representan distancias ordenadas.

Resultados

Los resultados de los experimentos mostraron que los métodos propuestos, especialmente la codificación sigmoidal y la clasificación Soft-Argmax, superaron a las técnicas tradicionales.

  • Métodos de Regresión: Entre los métodos de regresión, la codificación sigmoidal dio los mejores resultados tanto en la estimación de profundidad como en el mantenimiento de un buen rendimiento en la detección de objetos.

  • Métodos de Clasificación: Los métodos que usaron Soft-Argmax mostraron una precisión mejorada en comparación con enfoques base que dependían de técnicas de clasificación más simples.

  • Regresión Ordinal: Aunque los resultados fueron generalmente buenos, los métodos que usaron Soft-Argmax aún proporcionaron un medio más efectivo para la estimación de profundidad en comparación con la regresión ordinal.

Consideraciones de Tiempo de Ejecución

Además de ver qué tan precisos eran los modelos, el estudio también consideró la velocidad de rendimiento. Añadir capacidades de estimación de profundidad al marco de detección de objetos sí aumentó los tiempos de procesamiento; sin embargo, se consideró que el intercambio era aceptable dada la mejora en la precisión.

Eficiencia del Flujo de Trabajo

Uno de los hallazgos importantes fue que los modelos de regresión de profundidad más simples tendían a ser más rápidos. Esto era de esperar, ya que los métodos de clasificación más complejos requieren pasos de procesamiento adicionales. Aunque este es un factor a considerar, las mejoras generales en precisión proporcionadas por los nuevos métodos justifican el ligero aumento en el tiempo de procesamiento.

Conclusión

El estudio abordó exitosamente los desafíos en la estimación de profundidad a nivel de objeto a larga distancia para UAVs usando una sola cámara. Al desarrollar nuevos métodos de codificación y enmarcar la estimación de profundidad de maneras innovadoras, los investigadores lograron mejorar cómo los drones reconocen y evalúan su entorno.

Estos avances no solo mejoran la operación segura de los UAVs, sino que también ofrecen una base para futuras investigaciones y desarrollos en aplicaciones de visión por computadora para vehículos voladores autónomos. La introducción de la Puntuación de Aptitud proporciona una herramienta valiosa para evaluar la efectividad de los modelos, allanando el camino para un mejor rendimiento en situaciones del mundo real. En general, los nuevos métodos demostraron ser un paso significativo hacia adelante en el despliegue de UAVs para diversas aplicaciones, asegurando operaciones más seguras y fiables en espacios aéreos concurridos.

Fuente original

Título: Long Range Object-Level Monocular Depth Estimation for UAVs

Resumen: Computer vision-based object detection is a key modality for advanced Detect-And-Avoid systems that allow for autonomous flight missions of UAVs. While standard object detection frameworks do not predict the actual depth of an object, this information is crucial to avoid collisions. In this paper, we propose several novel extensions to state-of-the-art methods for monocular object detection from images at long range. Firstly, we propose Sigmoid and ReLU-like encodings when modeling depth estimation as a regression task. Secondly, we frame the depth estimation as a classification problem and introduce a Soft-Argmax function in the calculation of the training loss. The extensions are exemplarily applied to the YOLOX object detection framework. We evaluate the performance using the Amazon Airborne Object Tracking dataset. In addition, we introduce the Fitness score as a new metric that jointly assesses both object detection and depth estimation performance. Our results show that the proposed methods outperform state-of-the-art approaches w.r.t. existing, as well as the proposed metrics.

Autores: David Silva, Nicolas Jourdan, Nils Gählert

Última actualización: 2023-02-17 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2302.08943

Fuente PDF: https://arxiv.org/pdf/2302.08943

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares