Mejorando la Detección de Objetos con Anotaciones Ruidosas
Un nuevo método que mejora la detección de objetos usando etiquetas ruidosas de crowdsourcing.
― 7 minilectura
Tabla de contenidos
- El desafío de las anotaciones ruidosas
- Nuestro enfoque: Combinación de detectores bayesianos (BDC)
- Componentes del BDC
- Proceso de Entrenamiento
- Ventajas del marco BDC
- Conjuntos de Datos Sintéticos para Evaluación
- Resultados Experimentales
- Conjuntos de Datos Reales Obtenidos por Crowdsourcing
- Comparación con Otros Métodos
- Escalabilidad y Robustez de BDC
- Costo Computacional
- Conclusión
- Fuente original
- Enlaces de referencia
Detectar objetos en imágenes es una tarea importante en la visión por computadora. Involucra identificar y localizar objetos dentro de fotos. Tradicionalmente, este proceso depende de tener etiquetas precisas para entrenar, lo cual puede ser complicado de conseguir. Esto es especialmente cierto cuando se utiliza el crowdsourcing, donde muchas personas contribuyen con anotaciones para imágenes. El crowdsourcing puede llevar a una mezcla de etiquetas precisas e imprecisas, lo que hace que sea un desafío entrenar modelos efectivos.
En los últimos años, los investigadores han buscado formas de trabajar con estas anotaciones ruidosas. Algunos se han centrado en usar conjuntos de datos sintéticos para probar sus métodos. Sin embargo, estos enfoques a menudo no reflejan bien los escenarios del mundo real. En este artículo, presentamos un nuevo método que utiliza un enfoque bayesiano para combinar diversas detecciones de diferentes anotadores, teniendo en cuenta la fiabilidad de sus anotaciones. Este método está diseñado para mejorar el rendimiento en la detección de objetos usando datos ruidosos de anotaciones obtenidas por crowdsourcing.
El desafío de las anotaciones ruidosas
El crowdsourcing reúne a muchas personas para anotar imágenes. Este proceso puede llevar a inconsistencias debido a los diferentes niveles de habilidad entre los anotadores. Algunos pueden ser muy experimentados, mientras que otros pueden no tener mucha experiencia. Cuando muchos anotadores etiquetan la misma imagen, a menudo ocurren desacuerdos, especialmente con objetos complejos. Esto crea un problema conocido como el tema de múltiples evaluadores, donde existen múltiples etiquetas para el mismo objeto.
La mayoría de los métodos actuales de detección de objetos esperan etiquetas precisas y de alta calidad. Rara vez es así en aplicaciones del mundo real, lo que lleva a un rendimiento mediocre cuando los modelos se entrenan con esos datos. Como resultado, hay una necesidad de métodos que puedan usar efectivamente anotaciones ruidosas de crowdsourcing para desarrollar sistemas de detección fiables.
Nuestro enfoque: Combinación de detectores bayesianos (BDC)
Para abordar estos desafíos, proponemos el marco de Combinación de Detectores Bayesianos (BDC). Este método tiene como objetivo combinar cajas delimitadoras ruidosas y etiquetas de clase, teniendo en cuenta la calidad de la entrada de cada anotador. Nuestro enfoque es flexible y puede integrarse con varios modelos de detección de objetos.
Componentes del BDC
El marco BDC se compone de cuatro componentes principales:
Módulo de Detector de Objetos: Este es el componente central que genera predicciones, incluyendo cajas delimitadoras y probabilidades de clase, en función de las imágenes de entrada.
Coincidente de Anotaciones y Predicciones: Este componente empareja cada Anotación con las predicciones realizadas por el detector de objetos. Establece conexiones entre las anotaciones obtenidas por crowdsourcing y las salidas del detector para asegurar las asociaciones más precisas.
Agregador de Cajas Delimitadoras (BBA): Esta parte agrega las predicciones estimando la fiabilidad de las cajas delimitadoras de cada anotador. Utiliza métodos estadísticos para refinar las estimaciones, reduciendo el impacto del ruido.
Agregador de Etiquetas de Clase (CLA): Similar al BBA, este componente combina las etiquetas de clase de diferentes anotadores. Modela las etiquetas de clase utilizando distribuciones de probabilidad para proporcionar una clasificación más robusta.
Proceso de Entrenamiento
El proceso de entrenamiento implica actualizar iterativamente los parámetros del detector de objetos y de los agregadores. Inicialmente, los parámetros se pueden establecer aleatoriamente o basándose en conocimientos previos. Después de pasar por los datos de entrenamiento, se utilizan las predicciones para actualizar los priors tanto en el BBA como en el CLA.
Ventajas del marco BDC
El marco BDC ofrece varias ventajas sobre los métodos de detección de objetos existentes:
Agnóstico al Modelo: BDC se puede aplicar a varios algoritmos de detección de objetos sin necesidad de ajustes específicos.
Sin Necesidad de Conocimientos Previos: A diferencia de muchos métodos anteriores, BDC no requiere conocimientos previos sobre las habilidades de los anotadores, lo que facilita su implementación en escenarios del mundo real.
Uso Efectivo de Datos Obtenidos por Crowdsourcing: Al mejorar la forma en que se agregan las etiquetas ruidosas, BDC mejora el rendimiento general de los sistemas de detección de objetos cuando se utilizan anotaciones obtenidas por crowdsourcing.
Conjuntos de Datos Sintéticos para Evaluación
Para probar la efectividad de BDC, creamos conjuntos de datos sintéticos que imitan varios escenarios de crowdsourcing. Estos conjuntos de datos permiten evaluaciones consistentes bajo condiciones controladas. Utilizamos conjuntos de datos populares de detección de objetos, como Pascal VOC y COCO, para construir nuestros conjuntos de datos sintéticos.
Nuestros escenarios sintéticos incluyeron múltiples anotadores con diferentes niveles de habilidad. Esto nos permitió estudiar qué tan bien se desempeña BDC cuando se enfrenta a datos ruidosos obtenidos por crowdsourcing.
Resultados Experimentales
Conjuntos de Datos Reales Obtenidos por Crowdsourcing
Evaluamos BDC en conjuntos de datos del mundo real, como radiografías de tórax e imágenes de respuesta a desastres. En estos experimentos, BDC superó consistentemente a los métodos existentes en métricas clave.
Los resultados muestran que BDC es más hábil para manejar el ruido en las anotaciones y produce una mejor agregación en comparación con otros métodos. Esto es cierto incluso cuando la verdad fundamental es desconocida, demostrando la versatilidad de nuestro enfoque.
Comparación con Otros Métodos
Comparamos BDC con varios métodos de referencia, incluyendo el voto mayoritario y enfoques que requieren conocimientos previos sobre las habilidades de los anotadores. Los resultados indican claramente que nuestro marco proporciona una mejora significativa en precisión promedio a través de múltiples modelos de detección de objetos.
BDC pudo agregar efectivamente etiquetas ruidosas, llevando a predicciones de cajas más limpias y precisas. Nuestro método superó a otros tanto en entornos reales como sintéticos, mostrando su naturaleza robusta.
Escalabilidad y Robustez de BDC
Una de las principales fortalezas de BDC es su capacidad para escalar con el número de anotadores. Nuestros experimentos demostraron que a medida que aumenta el número de contribuyentes, BDC mantiene o incluso mejora su rendimiento. En contraste, muchos otros métodos tienden a tener problemas a medida que aumenta el ruido en las anotaciones.
También evaluamos cómo BDC se enfrenta a porcentajes variables de anotadores de baja calidad. Incluso cuando la mayoría de los anotadores eran de baja habilidad, BDC demostró resiliencia, logrando mejores resultados que otras técnicas.
Costo Computacional
En términos de recursos computacionales, BDC es eficiente respecto a la carga computacional de entrenar modelos de detección de objetos. Aunque hay un ligero aumento en el tiempo de entrenamiento, esto es mínimo en comparación con el tiempo general requerido para el propio detector de objetos.
Nuestro marco agiliza el proceso al integrar pasos de coincidencia de anotaciones y actualización en el ciclo de entrenamiento, haciéndolo práctico para aplicaciones en el mundo real.
Conclusión
En conclusión, el marco de Combinación de Detectores Bayesianos proporciona una solución prometedora para la detección de objetos con anotaciones obtenidas por crowdsourcing. Al gestionar efectivamente las etiquetas ruidosas e incorporar información sobre la fiabilidad de cada anotador, BDC establece un nuevo estándar en este ámbito.
Nuestros amplios experimentos, tanto en conjuntos de datos sintéticos como reales, demuestran que BDC mejora significativamente el rendimiento de detección de objetos en comparación con métodos existentes. Este enfoque no solo es robusto y flexible, sino que también ofrece un camino a seguir en el campo cada vez más importante de las anotaciones por crowdsourcing en la visión por computadora.
A medida que avanzamos, esperamos explorar nuevas formas de aplicar BDC y optimizar aún más sus capacidades, potencialmente extendiéndolo a otras áreas en el aprendizaje automático donde la calidad de los datos es variable. Esto abre numerosas avenidas para avanzar en tareas de visión por computadora y mejorar los resultados en campos que dependen de un análisis de imágenes preciso.
Título: Bayesian Detector Combination for Object Detection with Crowdsourced Annotations
Resumen: Acquiring fine-grained object detection annotations in unconstrained images is time-consuming, expensive, and prone to noise, especially in crowdsourcing scenarios. Most prior object detection methods assume accurate annotations; A few recent works have studied object detection with noisy crowdsourced annotations, with evaluation on distinct synthetic crowdsourced datasets of varying setups under artificial assumptions. To address these algorithmic limitations and evaluation inconsistency, we first propose a novel Bayesian Detector Combination (BDC) framework to more effectively train object detectors with noisy crowdsourced annotations, with the unique ability of automatically inferring the annotators' label qualities. Unlike previous approaches, BDC is model-agnostic, requires no prior knowledge of the annotators' skill level, and seamlessly integrates with existing object detection models. Due to the scarcity of real-world crowdsourced datasets, we introduce large synthetic datasets by simulating varying crowdsourcing scenarios. This allows consistent evaluation of different models at scale. Extensive experiments on both real and synthetic crowdsourced datasets show that BDC outperforms existing state-of-the-art methods, demonstrating its superiority in leveraging crowdsourced data for object detection. Our code and data are available at https://github.com/zhiqin1998/bdc.
Autores: Zhi Qin Tan, Olga Isupova, Gustavo Carneiro, Xiatian Zhu, Yunpeng Li
Última actualización: 2024-07-10 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2407.07958
Fuente PDF: https://arxiv.org/pdf/2407.07958
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.