Estimando la Densidad de Multitudes con Sonido Mientras se Protege la Privacidad
Un nuevo método basado en audio estima el tamaño de las multitudes sin invadir la privacidad personal.
― 5 minilectura
Tabla de contenidos
La estimación de la densidad de personas es importante para muchas situaciones, como gestionar espacios públicos y asegurar la seguridad en hospitales. Sin embargo, es crucial respetar la privacidad de la gente mientras se recopila esta información. Este artículo habla de un nuevo método para estimar cuántas personas están presentes en un espacio, utilizando sonidos que no incluyen habla. El objetivo es crear un sistema que proteja la privacidad mientras proporciona datos precisos sobre el tamaño de la multitud.
La Importancia de la Privacidad
Cuando pensamos en monitorear el tamaño de las multitudes, generalmente imaginamos cámaras que vigilan cada movimiento. Aunque las cámaras pueden ser útiles, a menudo generan preocupaciones sobre la privacidad. La gente se siente incómoda al ser grabada, especialmente en lugares como hospitales donde la privacidad es aún más importante. Usar audio en vez de video puede ayudar a abordar estas preocupaciones. Sin embargo, un gran reto con el audio es que puede capturar discurso, lo que podría comprometer la privacidad.
Para resolver este problema, nuestro método se centra en sonidos que no son habla. De esta manera, podemos estimar el tamaño de la multitud sin arriesgar información personal. Nuestro estudio muestra que es posible hacer esto de manera precisa y segura.
Cómo Funciona el Método
Para poner en práctica este enfoque, desarrollamos un sistema que usa un micrófono para grabar sonidos. Colocamos este sistema en la sala de espera de un gran hospital, y recopiló sonidos durante varios meses. Filtrando los sonidos de habla, pudimos analizar solo el audio que no era discurso. Este audio contiene información útil que nos ayuda a determinar cuántas personas están presentes en cualquier momento.
Comparamos nuestro método basado en audio con un método tradicional que usa cámaras térmicas, que detectan calor para estimar el tamaño de la multitud. Nuestros hallazgos muestran que usar audio no hablado puede proporcionar resultados más precisos que la imagen térmica, especialmente al observar intervalos de tiempo más cortos.
Capturando Datos de Sonido
Para reunir datos precisos, necesitábamos asegurarnos de que solo estábamos capturando sonidos útiles. Instalamos un dispositivo que usa múltiples micrófonos dispuestos en una matriz para recoger audio desde diferentes direcciones. Esto ayuda a obtener una imagen más clara de los sonidos en la habitación. La matriz de micrófonos filtra el habla, para que solo mantengamos los sonidos que necesitamos para el análisis.
El sistema graba audio en pequeños segmentos y procesa estos segmentos para determinar cuándo contienen sonidos no hablados. Los sonidos grabados se utilizan luego para estimar cuántas personas hay en la sala de espera.
Análisis de Audio No Hablado
Una vez que se captura el audio, se analiza con modelos avanzados que nos ayudan a entender la densidad de la multitud. Usamos un tipo específico de modelo llamado transformador, que es bueno procesando datos de series temporales como el audio. El modelo revisa el audio grabado para encontrar patrones que indican cuántas personas están presentes.
Para nuestro estudio, comparamos nuestros resultados del método de audio no hablado con datos de cámaras térmicas. Los resultados mostraron que nuestro enfoque basado en audio superó el método de la Cámara térmica en estimar la ocupación con precisión. Esto es especialmente importante en entornos como hospitales, donde es esencial llevar un control de las personas sin invadir su privacidad.
Medidas de Privacidad
Cuando se trata de privacidad, es fundamental tener medidas sólidas en marcha. Nuestro método va más allá de solo usar audio no hablado; también aplicamos técnicas de Privacidad Diferencial. Esto significa que añadimos ruido controlado a los datos, haciendo que sea mucho más difícil extraer información específica sobre individuos. Como resultado, incluso si alguien intenta analizar los datos, sería complicado vincular esa información a alguna persona.
Al centrarnos en sonidos no hablados y emplear la privacidad diferencial, nuestro sistema está diseñado para proteger la privacidad individual mientras proporciona información valiosa sobre el tamaño de la multitud.
Aplicaciones del Método
El enfoque que desarrollamos puede ser útil en diversos entornos más allá de solo hospitales. Por ejemplo, puede aplicarse en escuelas, tiendas y transporte público para llevar un control de cuántas personas hay en un área específica. Esta información puede ayudar a gestionar mejor los recursos y mejorar la seguridad.
Además de contar personas, nuestro sistema también puede ayudar a entender cuán llena está un lugar, lo que puede ser vital para manejar la propagación de enfermedades, especialmente en escenarios de salud pública. Al asegurar la privacidad mientras proporcionamos datos precisos, podemos ayudar a generar confianza entre el público y las organizaciones que requieren información sobre la densidad de la multitud.
Conclusión
En resumen, nuestro método para estimar el tamaño de las multitudes usando audio no hablado muestra gran potencial. Aborda exitosamente el tema crucial de la privacidad, haciéndolo adecuado para su uso en entornos sensibles como hospitales mientras proporciona datos precisos de ocupación. Usando tecnologías avanzadas como matrices de micrófonos y modelos de aprendizaje automático, podemos reunir la información necesaria sin comprometer la privacidad individual.
A medida que continuamos explorando el potencial de este método, esperamos aplicarlo en diversas ubicaciones y circunstancias, mejorando la gestión de espacios públicos y la seguridad mientras respetamos la privacidad de las personas. Nuestros hallazgos fomentan una mayor investigación y desarrollo en esta área, abriendo el camino para formas más inteligentes y responsables de manejar la estimación de densidad de multitudes.
Título: Crowdotic: A Privacy-Preserving Hospital Waiting Room Crowd Density Estimation with Non-speech Audio
Resumen: Privacy-preserving crowd density analysis finds application across a wide range of scenarios, substantially enhancing smart building operation and management while upholding privacy expectations in various spaces. We propose a non-speech audio-based approach for crowd analytics, leveraging a transformer-based model. Our results demonstrate that non-speech audio alone can be used to conduct such analysis with remarkable accuracy. To the best of our knowledge, this is the first time when non-speech audio signals are proposed for predicting occupancy. As far as we know, there has been no other similar approach of its kind prior to this. To accomplish this, we deployed our sensor-based platform in the waiting room of a large hospital with IRB approval over a period of several months to capture non-speech audio and thermal images for the training and evaluation of our models. The proposed non-speech-based approach outperformed the thermal camera-based model and all other baselines. In addition to demonstrating superior performance without utilizing speech audio, we conduct further analysis using differential privacy techniques to provide additional privacy guarantees. Overall, our work demonstrates the viability of employing non-speech audio data for accurate occupancy estimation, while also ensuring the exclusion of speech-related content and providing robust privacy protections through differential privacy guarantees.
Autores: Forsad Al Hossain, Tanjid Hasan Tonmoy, Andrew A. Lover, George A. Corey, Mohammad Arif Ul Alam, Tauhidur Rahman
Última actualización: 2023-09-20 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2309.10280
Fuente PDF: https://arxiv.org/pdf/2309.10280
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.