Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Apprentissage automatique

Améliorer la reconnaissance d'images avec des idées d'annotation

Une nouvelle méthode améliore la reconnaissance d'images par les ordinateurs en utilisant des données d'étiquetage supplémentaires.

― 9 min lire


Aperçus d'annotation pourAperçus d'annotation pourl'apprentissage d'imagesd'interaction de marquage.d'images en utilisant des donnéesRévolutionner la reconnaissance
Table des matières

L'apprentissage supervisé aide les ordinateurs à reconnaître des images en leur apprenant à quoi ressemblent différents objets grâce à des photos étiquetées. Ce processus consiste généralement à montrer à l'ordinateur plein d'images avec les noms de ce qu'il y a dessus. Mais il y a plein d'infos utiles qui passent souvent à la trappe pendant ce processus. Cet article parle d'une nouvelle façon d'enseigner aux ordinateurs à reconnaître des images en utilisant des infos supplémentaires qui viennent des actions des gens qui étiquettent ces images, qu'on appelle des sous-produits d'annotation.

C'est quoi les Sous-Produit d'Annotation ?

Quand les gens étiquettent des images, ils interagissent souvent avec l'ordinateur d'une manière qui crée des infos supplémentaires sur leurs choix. Par exemple, quand quelqu'un clique sur une image ou bouge sa souris, ces actions produisent des données qui montrent où ils regardaient ou comment ils réfléchissaient. Ces infos peuvent inclure où ils ont cliqué, la rapidité de leurs mouvements, et même combien de temps ils ont mis pour décider quelles images choisir. En ne utilisant pas ces données supplémentaires, on loupe des insights précieux qui pourraient aider à améliorer l'apprentissage des ordinateurs pour identifier des images.

Le Besoin de Meilleures Méthodes d'Apprentissage

Traditionnellement, on enseigne aux ordinateurs à reconnaître des images en utilisant seulement les données étiquetées. Cette méthode peut passer à côté des nuances de la façon dont les humains perçoivent et choisissent les images. Un des plus gros défis en Classification d'images, c'est que les ordinateurs peuvent parfois apprendre à prendre des décisions basées sur des indices trompeurs en arrière-plan au lieu de se concentrer sur l'objet d'intérêt. Ça peut mener à des erreurs quand ils rencontrent de nouveaux types d'images.

Introduction de l'Apprentissage par les Sous-Produkts d'Annotation (LUAB)

Pour résoudre ces problèmes, on propose une nouvelle méthode d'entraînement appelée Apprentissage par les Sous-Produits d'Annotation (LUAB). Cette méthode inclut les infos supplémentaires recueillies sur comment les annotateurs interagissent avec les images pendant le processus d'étiquetage. En faisant ça, on peut aider l'ordinateur à se concentrer plus sur les caractéristiques importantes de l'image, ce qui peut conduire à une meilleure Généralisation et précision lors de l'identification des objets.

Collecte des Sous-Produits d'Annotation

Pour mettre en œuvre LUAB, on a collecté des sous-produits d'annotation à partir de deux ensembles de données d'images bien connus : ImageNet et COCO. Quand on a répliqué le processus d'étiquetage pour ces ensembles de données, on a fait en sorte de capturer les informations supplémentaires générées pendant l'annotation. Ça inclut le suivi des mouvements de souris et des clics, qui donnent des insights sur l'attention et la prise de décision pendant le processus d'étiquetage.

Processus d'Annotation pour ImageNet

ImageNet est un grand ensemble de données qui comprend plus d'un million d'images. Le processus d'étiquetage original impliquait plusieurs étapes, dont la sélection et la vérification des images. On s'est concentré sur les parties du processus qui généraient des sous-produits d'annotation et on a enregistré les interactions des annotateurs humains. Notre but était de voir comment ces données supplémentaires pouvaient aider à construire de meilleurs classificateurs d'images.

La Méthode de Réplication

Pour notre étude, on a recréé la méthode d'annotation d'ImageNet étape par étape. On a fait appel à des annotateurs pour sélectionner des images liées à des classes spécifiques, comme différentes races de chiens. Les interactions des annotateurs, comme où ils ont cliqué et comment ils ont bougé leur souris, ont été enregistrées et sauvegardées. En analysant ces données supplémentaires, on espérait voir comment ça pourrait contribuer au processus d'apprentissage d'un modèle informatique.

Résultats des Données d'ImageNet

De nos efforts, on a pu collecter des sous-produits d'annotation pour 99,3 % des images dans l'ensemble de données d'ImageNet. On a trouvé que ces sous-produits fournissaient des signaux faibles mais utiles sur l'emplacement des objets dans les images. Cette info était particulièrement importante pour aider le modèle informatique à différencier entre les objets principaux et les éléments de fond des images.

Processus d'Annotation pour COCO

Tout comme ImageNet, COCO est un autre ensemble de données significatif qui inclut des images avec plusieurs objets. Le processus d'annotation ici différait légèrement car il faut que les annotateurs identifient et labellisent plusieurs objets dans une seule image.

Collecte des Sous-Produits d'Annotation de COCO

Pour l'ensemble de données COCO, on s'est concentré sur la capture des actions des annotateurs pendant qu'ils étiquetaient des images. Les annotateurs travaillaient sur des images individuelles, plaçant des icônes sur les objets qu'ils identifiaient. Chaque action, comme l'ajout ou le déplacement d'une icône, était enregistrée. Ça nous a permis de créer un ensemble riche de sous-produits d'annotation qui pouvaient informer le processus d'apprentissage.

Résultats des Données de COCO

En analysant les données de COCO, on a découvert que les actions des annotateurs offraient une grande précision quant à l'emplacement des objets. Les sous-produits supplémentaires ont aidé à confirmer les emplacements des objets dans les images et ont permis au modèle informatique d'apprendre efficacement à partir de cette info.

Avantages de l'Utilisation des Sous-Produits d'Annotation

En utilisant LUAB, on a pu identifier plusieurs avantages clés pour les modèles de classification d'images :

  1. Amélioration de la Généralisation : En intégrant les sous-produits d'annotation, les modèles devenaient meilleurs à reconnaître des objets dans de nouvelles images qu'ils n'avaient jamais vues avant. Ça veut dire qu'ils ne se contentent pas de mémoriser ce sur quoi ils ont été formés, mais peuvent appliquer leur apprentissage à différentes situations.

  2. Renforcement de la Robustesse : Les informations supplémentaires des mouvements de souris et des clics ont aidé à réduire les risques que le modèle fasse des erreurs basées sur des indices trompeurs en arrière-plan. Ça rend le modèle plus fiable.

  3. Coût-Efficacité : LUAB ne nécessite aucun effort ou coût d'étiquetage supplémentaires. Les sous-produits d'annotation sont collectés pendant le processus normal d'étiquetage, ce qui rend cette approche efficace et pratique.

Résultats Expérimentaux

Pour voir à quel point LUAB fonctionnait, on a mené plusieurs expériences en utilisant les ensembles de données modifiés avec des sous-produits d'annotation.

Test sur ImageNet

En testant nos modèles sur l'ensemble de données ImageNet, on a mesuré comment ils ont performé à la fois sur des données en distribution (images similaires à l'ensemble d'entraînement) et hors distribution (nouvelles images différentes). Les résultats ont montré que les modèles entraînés avec LUAB non seulement amélioraient leur performance globale mais réduisaient aussi leur dépendance aux caractéristiques de fond.

Test sur COCO

De la même manière, les expériences avec l'ensemble de données COCO ont montré que l'inclusion de sous-produits d'annotation augmentait significativement la précision du modèle pour identifier des objets. Les modèles étaient meilleurs pour généraliser à travers différentes tâches, renforçant l'efficacité de la méthode LUAB.

Analyse des Mouvements de Souris et des Clics

Une partie importante de notre recherche consistait à analyser comment les mouvements et clics de souris enregistrés contribuaient à l'amélioration de l'apprentissage.

L'Importance des Clics

Les clics de souris fournissaient des signaux directs sur où un annotateur portait son attention. Ça nous a permis d'extraire des infos précieuses sur les emplacements des objets, ce qui était crucial pour entraîner de meilleurs modèles.

Suivi des Mouvements de Souris

On a aussi noté les motifs des mouvements de souris. La vitesse et le chemin des mouvements du curseur pouvaient indiquer le processus de décision des annotateurs, offrant des couches supplémentaires de contexte au processus d'étiquetage. Cet aperçu a aidé à affiner encore plus les modèles d'apprentissage.

Comparaison avec les Méthodes Traditionnelles

Dans notre recherche, on a comparé LUAB avec des méthodes traditionnelles de classification d'images qui reposaient uniquement sur des images étiquetées. Les résultats ont mis en lumière les avantages d'incorporer des sous-produits d'annotation :

  • Précision Supérieure : Les modèles qui utilisaient LUAB ont systématiquement obtenu de meilleures performances sur des benchmarks standards.
  • Moins de Sursaturation : LUAB a amélioré la capacité des modèles à généraliser, réduisant ainsi le risque de sur-apprentissage des données d'entraînement.
  • Applicabilité Plus Large : La méthode LUAB peut être étendue à d'autres domaines au-delà de la classification d'images, y compris le texte, l'audio et les données vidéo.

Conclusion

Notre exploration de l'Apprentissage par les Sous-Produits d'Annotation a montré que des insights précieux peuvent être obtenus en tirant parti des infos supplémentaires produites pendant le processus d'étiquetage. Les résultats des ensembles de données ImageNet et COCO démontrent que l'incorporation des actions de souris et des motifs d'interaction peut conduire à des modèles plus performants sans coûts supplémentaires.

Le succès de LUAB ouvre la voie à de nouvelles possibilités en apprentissage automatique et annotation de données, suggérant que les efforts futurs devraient viser à inclure de telles données auxiliaires dans divers domaines d'étude. En maximisant le potentiel des sous-produits d'annotation, on peut continuer à améliorer les capacités et la fiabilité des modèles de classification d'images, ouvrant finalement la voie à des systèmes d'apprentissage plus avancés à l'avenir.

Source originale

Titre: Neglected Free Lunch -- Learning Image Classifiers Using Annotation Byproducts

Résumé: Supervised learning of image classifiers distills human knowledge into a parametric model through pairs of images and corresponding labels (X,Y). We argue that this simple and widely used representation of human knowledge neglects rich auxiliary information from the annotation procedure, such as the time-series of mouse traces and clicks left after image selection. Our insight is that such annotation byproducts Z provide approximate human attention that weakly guides the model to focus on the foreground cues, reducing spurious correlations and discouraging shortcut learning. To verify this, we create ImageNet-AB and COCO-AB. They are ImageNet and COCO training sets enriched with sample-wise annotation byproducts, collected by replicating the respective original annotation tasks. We refer to the new paradigm of training models with annotation byproducts as learning using annotation byproducts (LUAB). We show that a simple multitask loss for regressing Z together with Y already improves the generalisability and robustness of the learned models. Compared to the original supervised learning, LUAB does not require extra annotation costs. ImageNet-AB and COCO-AB are at https://github.com/naver-ai/NeglectedFreeLunch.

Auteurs: Dongyoon Han, Junsuk Choe, Seonghyeok Chun, John Joon Young Chung, Minsuk Chang, Sangdoo Yun, Jean Y. Song, Seong Joon Oh

Dernière mise à jour: 2023-07-26 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2303.17595

Source PDF: https://arxiv.org/pdf/2303.17595

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires