Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Interacción Persona-Ordenador# Visión por Computador y Reconocimiento de Patrones# Aprendizaje automático

Mejorando el etiquetado de imágenes con aprendizaje automático

Automatizando la etiquetado de datos mientras se asegura la precisión con aprendizaje automático y aportes de la multitud.

Christopher Klugmann, Rafid Mahmood, Guruprasad Hegde, Amit Kale, Daniel Kondermann

― 6 minilectura


Automatizando elAutomatizando eletiquetado de imágenesaprendizaje automático y crowdsourcing.Etiquetado de datos simplificado con
Tabla de contenidos

Etiquetar imágenes, como marcar fotos para mostrar dónde están las cosas, puede consumir mucho tiempo y dinero. Muchas empresas usan Crowdsourcing, que significa que piden a mucha gente que ayude a compartir el trabajo, pero este enfoque tiene límites en cuanto a cuán preciso puede ser. Usar máquinas para ayudar con la etiquetación puede ahorrar tiempo, pero hay preocupaciones sobre la calidad de los resultados. Esto es especialmente importante en campos donde la seguridad es un gran tema, como en los autos autónomos. Necesitamos una forma de verificar la calidad de los datos sin perder la confianza en los resultados.

Crowdsourcing y Trabajo Manual

En los últimos años, muchos avances en tecnología dependen de datos etiquetados, que son información que ha sido marcada de una manera que las máquinas pueden entender. El crowdsourcing se ha vuelto popular para este propósito, donde personas de diferentes orígenes ayudan a etiquetar datos, lo que permite un proceso más rápido. Generalmente, varias personas etiquetan el mismo ítem, y sus respuestas se combinan, usualmente usando votación mayoritaria, para obtener un resultado más confiable. Sin embargo, las etiquetas visuales, como los recuadros alrededor de objetos en imágenes, a menudo no se hacen varias veces debido a los altos costos, lo que lleva a más posibilidades de errores.

Para asegurarse de que los datos sean precisos, las empresas han comenzado a contratar personas para verificar los datos etiquetados. Un método para comprobarlo es preguntar a los etiquetadores sobre los objetos en las imágenes, guiándolos para determinar si las etiquetas son correctas según directrices específicas.

El Rol de las Máquinas en la Etiquetación

Cuando muchos etiquetadores trabajan en la misma tarea, se pueden aplicar métodos estadísticos, haciendo más fácil obtener distribuciones confiables de respuestas. Al usar modelos de Aprendizaje automático, el proceso puede acelerarse significativamente. En lugar de depender exclusivamente de las personas, las máquinas pueden ayudar a predecir respuestas basadas en los datos que han visto antes, permitiendo una anotación de Datos Visuales más eficiente.

Aprendizaje Automático y Calidad de Datos

El objetivo clave es automatizar la etiquetación tanto como sea posible mientras se mantienen resultados de alta calidad. Al entrenar a las máquinas para entender cómo las personas etiquetan datos, podemos hacer el proceso de verificación de calidad de datos más eficiente. Esto se puede lograr creando modelos que puedan predecir resultados basados en respuestas de etiquetado anteriores en lugar de solo enfocarse en una respuesta correcta.

Entendiendo las Etiquetas Suaves

Las etiquetas suaves no son solo blanco y negro; representan un rango de probabilidades sobre cuán probable es que una etiqueta cierta sea correcta. Usar etiquetas suaves en lugar de etiquetas duras (que son estrictas y absolutas) permite una comprensión más matizada. Esto ayuda al modelo de aprendizaje automático a proporcionar predicciones más precisas sobre los datos.

El Método Propuesto

Presentamos un nuevo método para verificar la calidad de datos visuales a través del aprendizaje automático y las respuestas de la multitud. En lugar de usar solo una etiqueta correcta, nuestro enfoque utiliza un rango de respuestas potenciales que toman en cuenta la incertidumbre. De esta manera, podemos evaluar más precisamente si las anotaciones hechas por los etiquetadores humanos son correctas.

Desafíos del Crowdsourcing

Incluso en un entorno de crowdsourcing, verificar la calidad de los datos puede ser complicado. Pueden haber muchas razones por las que las personas podrían tener problemas con las tareas de anotación. A veces, las tareas están mal diseñadas o las imágenes son difíciles de analizar.

Anotando Datos Visuales

Para demostrar la efectividad de nuestro enfoque, lo aplicamos a dos conjuntos de datos del mundo real relacionados con la seguridad automotriz. Trabajamos en datos donde el objetivo era reconocer peatones y analizar señales de tráfico. El primer conjunto de datos incluía imágenes de diversas escenas de tráfico, mientras que el segundo se centraba exclusivamente en señales de tráfico.

Conjuntos de Datos Visuales

  1. Detección de Peatones: Usamos un conjunto de datos con imágenes que contenían peatones, pidiendo a los etiquetadores que identificaran si una persona era visible en una sección particular de la imagen. Cada pregunta se presentó varias veces a diferentes evaluadores para reunir una amplia gama de respuestas.

  2. Señales de Tráfico: El segundo conjunto de datos involucró identificar diferentes atributos de las señales de tráfico, como si estaban cubiertas o si tenían formas y características distintas. Se usaron anotadores profesionales, así como un grupo de jugadores, para recopilar estas respuestas.

Resultados y Beneficios

Descubrimos que nuestro modelo podía automatizar una parte significativa de las tareas de etiquetado sin sacrificar la precisión. En los casos donde el modelo estaba seguro sobre una respuesta, podía predecir correctamente la mayoría de las veces, lo que llevó a ahorros notables tanto en tiempo como en dinero gastado en trabajo humano.

Eficiencia de la Automatización

Nuestros hallazgos indican que a medida que aumenta el número de respuestas, el modelo se vuelve cada vez más seguro sobre las anotaciones. Esto también permite identificar qué partes del conjunto de datos pueden ser etiquetadas fácilmente por máquinas, permitiendo que los trabajadores humanos se concentren en tareas más complejas que requieren su experiencia.

Gestionando la Ambigüedad en las Respuestas

También examinamos qué tan bien nuestro modelo podía entender la incertidumbre en las respuestas humanas. A veces, cuando las personas etiquetan ítems, sus respuestas pueden ser confusas o contradictorias. Nuestro modelo se desempeñó bien en predecir cuán confusas podrían ser estas tareas, lo que ayuda a filtrar el conjunto de datos para tareas que podrían requerir un examen adicional.

Prediciendo la Ambigüedad de Tareas

El modelo predice cuán desafiante podría ser una tarea de etiquetado. Este entendimiento ayuda a decidir qué tareas deben ser priorizadas para más atención humana. Al analizar dónde radica la incertidumbre, podemos gestionar efectivamente el flujo de trabajo, poniendo más recursos en las tareas que más lo necesitan.

Conclusiones y Trabajo Futuro

En resumen, nuestro trabajo muestra que es posible automatizar muchos aspectos del proceso de etiquetado de datos mientras se asegura la calidad de los resultados. Hemos demostrado que el aprendizaje automático puede ser un socio efectivo en el mundo de la anotación de datos visuales, permitiendo a las empresas ahorrar tiempo y dinero mientras mantienen estándares.

Al predecir incertidumbres y dificultades en las tareas, nuestro enfoque también destaca áreas donde la intervención humana es crítica, creando un proceso de recopilación de datos más eficiente y confiable en el futuro. En el futuro, planeamos refinar aún más nuestros métodos y explorar aplicaciones adicionales más allá de los datos automotrices, buscando mejorar los procesos de anotación en diversos campos.

Fuente original

Título: No Need to Sacrifice Data Quality for Quantity: Crowd-Informed Machine Annotation for Cost-Effective Understanding of Visual Data

Resumen: Labeling visual data is expensive and time-consuming. Crowdsourcing systems promise to enable highly parallelizable annotations through the participation of monetarily or otherwise motivated workers, but even this approach has its limits. The solution: replace manual work with machine work. But how reliable are machine annotators? Sacrificing data quality for high throughput cannot be acceptable, especially in safety-critical applications such as autonomous driving. In this paper, we present a framework that enables quality checking of visual data at large scales without sacrificing the reliability of the results. We ask annotators simple questions with discrete answers, which can be highly automated using a convolutional neural network trained to predict crowd responses. Unlike the methods of previous work, which aim to directly predict soft labels to address human uncertainty, we use per-task posterior distributions over soft labels as our training objective, leveraging a Dirichlet prior for analytical accessibility. We demonstrate our approach on two challenging real-world automotive datasets, showing that our model can fully automate a significant portion of tasks, saving costs in the high double-digit percentage range. Our model reliably predicts human uncertainty, allowing for more accurate inspection and filtering of difficult examples. Additionally, we show that the posterior distributions over soft labels predicted by our model can be used as priors in further inference processes, reducing the need for numerous human labelers to approximate true soft labels accurately. This results in further cost reductions and more efficient use of human resources in the annotation process.

Autores: Christopher Klugmann, Rafid Mahmood, Guruprasad Hegde, Amit Kale, Daniel Kondermann

Última actualización: 2024-08-19 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2409.00048

Fuente PDF: https://arxiv.org/pdf/2409.00048

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares

Visión por Computador y Reconocimiento de PatronesDesarrollando un nuevo conjunto de datos para el reconocimiento del lenguaje de señas bangla

Un nuevo conjunto de datos busca mejorar el reconocimiento del lenguaje de señas bengalí usando tecnología avanzada.

Md Hadiuzzaman, Mohammed Sowket Ali, Tamanna Sultana

― 6 minilectura