El papel del audio en la detección de peatones
Los investigadores están explorando tecnología de detección de audio para mejorar la identificación de peatones en áreas urbanas.
― 6 minilectura
Tabla de contenidos
- ¿Qué es ASPED?
- ¿Por qué usar audio para la detección?
- Desafíos en la detección de peatones
- Métodos de recolección de datos
- Configuración de audio
- Configuración de video
- Anotación de datos
- Métodos experimentales
- Tipos de modelos
- Entrenamiento y prueba
- Distribución de clases
- Resultados y observaciones
- Direcciones futuras
- Conclusión
- Fuente original
- Enlaces de referencia
Detectar peatones es una tarea importante para hacer las ciudades más inteligentes y seguras. Con el avance de la tecnología, usar sonido para detectar gente en las calles se está convirtiendo en un foco de investigación. Esto es diferente a los métodos tradicionales que dependen de cámaras y señales visuales. La capacidad de reconocer sonidos hechos por peatones puede contribuir a la planificación urbana y mejorar las medidas de seguridad.
¿Qué es ASPED?
ASPED significa Audio Sensing for Pedestrian Detection. Es un nuevo conjunto de datos creado para ayudar a los investigadores a estudiar qué tan bien se puede utilizar el audio para detectar peatones. El conjunto de datos incluye grabaciones realizadas en varias ubicaciones de un campus universitario. Estas grabaciones incluyen tanto audio como video, permitiendo a los investigadores ver si pueden detectar efectivamente cuántas personas están cerca solo a partir del sonido.
¿Por qué usar audio para la detección?
Usar micrófonos para detectar peatones tiene varias ventajas:
- Asequibilidad: Los micrófonos son más baratos que las cámaras y otros sistemas de sensores.
- Eficiencia Energética: Consumir menos energía permite grabaciones más largas sin necesidad de cargar constantemente.
- Amplia Cobertura: Los micrófonos pueden capturar sonidos desde muchas direcciones, a veces hasta 360 grados.
- Independencia de la Luz: Los dispositivos de audio no dependen de la luz, lo que significa que pueden funcionar en condiciones como niebla o de noche.
Estos factores hacen que el audio sea una opción convincente para monitorear la actividad de los peatones.
Desafíos en la detección de peatones
Detectar peatones usando audio no es una tarea fácil. Los sonidos que hacen las personas, como pasos o voces, a menudo se mezclan con otros ruidos de la ciudad. Esto lleva a una mezcla de sonidos que puede dificultar la identificación de las señales producidas por los peatones. Además, estos sonidos pueden ser bastante débiles, lo que hace que sean difíciles de captar.
Para abordar estas dificultades, los investigadores necesitan encontrar maneras de filtrar ruidos superpuestos e identificar los sonidos de peatones con precisión. Esto implica usar varias técnicas y Modelos para analizar los datos de audio efectivamente.
Métodos de recolección de datos
Para el conjunto de datos ASPED, los investigadores utilizaron dos tipos de equipos para recolectar datos: grabadoras de audio y cámaras de video.
Configuración de audio
El audio se grabó usando grabadoras de audio Tascam DR-05X emparejadas con micrófonos pequeños. Estos dispositivos fueron protegidos de las inclemencias del tiempo usando bolsas impermeables. Las grabadoras fueron colocadas estratégicamente alrededor del campus para captar una variedad de sonidos de personas caminando y hablando.
Configuración de video
Para complementar los datos de audio, también se grabó video usando cámaras GoPro. Estas cámaras capturaron imágenes de las áreas alrededor de las grabadoras de audio. Los videos ayudaron a los investigadores a ver cuántos peatones pasaban, lo cual era crucial para etiquetar los datos de audio. El tiempo del video se sincronizó con las grabaciones de audio usando un silbato para asegurar precisión.
Anotación de datos
Después de recolectar los datos de audio y video, el siguiente paso fue anotar o etiquetar la información. Los investigadores usaron una herramienta llamada Masked-attention Mask Transformer para identificar peatones en las grabaciones de video. Este proceso involucró detectar cuadros delimitadores alrededor de individuos en cada cuadro del video.
Se establecieron diferentes áreas alrededor de los micrófonos como zonas de proximidad, permitiendo a los investigadores contar cuántas personas estaban dentro de ciertos rangos. El proceso de etiquetado mostró que la mayoría de los cuadros no contenían peatones, mientras que algunos tenían uno o más.
Métodos experimentales
Los investigadores se propusieron establecer un rendimiento base para la detección de peatones usando audio. Probaron tres modelos diferentes que buscaban clasificar si los peatones estaban presentes o no.
Tipos de modelos
- Modelo VGGish: Este modelo usó características de audio extraídas de una red preentrenada, lo que ayudó a aprender patrones con el tiempo.
- Codificador Convencional: Este método trabajó con señales de audio transformadas en un formato específico llamado espectrograma log-mel.
- Transformador de Espectrograma de Audio: Este modelo avanzado ha mostrado resultados sólidos en la clasificación de escenas de audio.
Cada modelo produjo probabilidades de salida para determinar si los peatones estaban presentes basándose en los datos de audio.
Entrenamiento y prueba
El conjunto de datos se dividió en tres partes para entrenamiento, validación y prueba. Los investigadores probaron qué tan bien los modelos podían detectar peatones en varios escenarios.
Distribución de clases
Los datos etiquetados mostraron un claro desequilibrio, con muchos cuadros sin actividad detectada. Para ayudar a los modelos a aprender mejor, los investigadores usaron técnicas como muestreo ponderado para asegurar que los datos de entrenamiento incluyeron una representación justa de las actividades de los peatones.
Resultados y observaciones
Después de analizar los resultados de los tres modelos, surgieron algunos puntos clave.
- Variación en el rendimiento: Generalmente, el modelo VGGish no funcionó tan bien como los otros dos modelos, CONV y AST.
- Precisión macro: Los modelos funcionaron mejor cuando el radio de grabación estaba establecido en 3 o 6 metros. Radios más pequeños capturaron menos sonidos, mientras que radios más grandes incluyeron sonidos más diversos pero hicieron la detección más difícil.
- Impacto del umbral de entrenamiento: Al usar diferentes umbrales para el entrenamiento y la prueba, los modelos tendieron a funcionar mejor cuando se usaron muestras más fáciles de detectar para la prueba.
En general, los resultados indicaron que, si bien los sensores de audio tienen potencial para detectar peatones, todavía hay espacio para mejorar antes de que puedan ser adoptados ampliamente en aplicaciones del mundo real.
Direcciones futuras
Los hallazgos del proyecto ASPED abren el camino para futuras investigaciones. Algunos posibles próximos pasos incluyen:
- Expandir el conjunto de datos: Los investigadores planean recopilar datos de áreas con tráfico vehicular para entender cómo se comporta la detección de audio en diferentes entornos.
- Mejorar las técnicas de detección: Se pueden desarrollar métodos más complejos para clasificar y contar peatones con precisión a partir del audio.
- Aplicación en el mundo real: A medida que la tecnología avanza, podría transformar cómo los planificadores urbanos y los oficiales de seguridad monitorean la actividad peatonal y gestionan la infraestructura de la ciudad.
Conclusión
El conjunto de datos ASPED destaca el potencial de usar audio para la detección de peatones en entornos urbanos. Aunque hay desafíos que superar, los resultados iniciales muestran que es posible rastrear el movimiento de los peatones a través del sonido. La investigación continua ayudará a refinar estos métodos, llevando a mejoras en la planificación urbana y a medidas de seguridad mejoradas en las ciudades.
Título: ASPED: An Audio Dataset for Detecting Pedestrians
Resumen: We introduce the new audio analysis task of pedestrian detection and present a new large-scale dataset for this task. While the preliminary results prove the viability of using audio approaches for pedestrian detection, they also show that this challenging task cannot be easily solved with standard approaches.
Autores: Pavan Seshadri, Chaeyeon Han, Bon-Woo Koo, Noah Posner, Subhrajit Guhathakurta, Alexander Lerch
Última actualización: 2024-01-16 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2309.06531
Fuente PDF: https://arxiv.org/pdf/2309.06531
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.