Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Présentation de COCONut : un nouveau dataset pour la segmentation d'images

COCONut offre une meilleure qualité et précision dans les ensembles de données de segmentation d'images.

― 6 min lire


Lancement du datasetLancement du datasetCOCONuten segmentation d'images.Une ressource vitale pour la recherche
Table des matières

Ces dernières années, le domaine de la vision par ordinateur a beaucoup évolué. Une partie importante de cette croissance a été l'amélioration des ensembles de données utilisés pour former des modèles qui aident les ordinateurs à comprendre les images. Un des ensembles de données les plus connus est COCO, qui signifie Common Objects in Context. Ça a aidé plein de chercheurs à créer des systèmes capables de détecter et de comprendre des objets dans les images. Mais bon, l'ensemble de données de segmentation COCO n'a pas beaucoup changé au cours de la dernière décennie, alors les chercheurs ont développé un nouvel ensemble de données appelé COCONut.

Qu'est-ce que COCONut ?

COCONut est un ensemble de données moderne qui vise à améliorer la Segmentation d'images. Il combine des images de COCO et d'un autre ensemble de données appelé Objects365. L'objectif est de fournir des Annotations d'images plus précises et de meilleure qualité. Les annotations indiquent à l'ordinateur où se trouvent différents objets dans l'image et ce que ces objets sont. COCONut inclut environ 383 000 images et plus de 5 millions de Masques de haute qualité, offrant des étiquettes claires pour tous les objets dans ces images.

Pourquoi a-t-on besoin de COCONut ?

L'ensemble de données COCO traditionnel a bien rempli son rôle, mais il a des limites. Il a commencé avec des annotations approximatives et a progressivement ajouté de nouveaux types d'étiquettes, ce qui a conduit à des incohérences. Par exemple, parfois le même objet pouvait être étiqueté différemment selon qui faisait l'étiquetage. Ça peut embrouiller les modèles entraînés avec ces ensembles de données.

Au fil du temps, les chercheurs ont remarqué que les tâches de segmentation de COCO n'évoluaient pas aussi vite que les tâches de détection. Ce ralentissement signifie que plein de nouveaux modèles pourraient ne pas bien fonctionner avec COCO. Alors que la demande pour une meilleure compréhension des images grandit, le besoin d'ensembles de données de haute qualité comme COCONut devient de plus en plus crucial.

Comment COCONut fonctionne

Pour créer COCONut, l'équipe de recherche s'est concentrée sur deux objectifs principaux : qualité et taille. Ils se sont assuré que les annotations ne sont pas seulement précises mais aussi cohérentes pour différents types de tâches comme la segmentation sémantique, d'instance et panoptique.

Le processus de développement de COCONut a inclus la révision des annotations existantes de COCO. Des erreurs ont été trouvées, comme des sur-étiquetages et des annotations manquantes. Les chercheurs ont réglé ces problèmes en faisant des ajustements minutieux pour s'assurer que COCONut a moins d'erreurs et de meilleures étiquettes.

Annotations dans COCONut

L'ensemble de données COCONut présente des annotations vérifiées par des évaluateurs humains. Ça veut dire que de vraies personnes ont regardé les images et les étiquettes pour s'assurer que tout est correct. Ce côté humain est important car les étiquettes générées par ordinateur peuvent parfois ne pas être très précises. Le nouvel ensemble de données comprend des définitions détaillées pour diverses classes d'objets, garantissant que tout le monde s'accorde sur ce que chaque étiquette signifie.

Les chercheurs ont élaboré un nouveau moyen d'annoter manuellement les images. Ils ont utilisé des étiquettes générées par machine pour aider les évaluateurs humains à accélérer le processus. Ce système comprend des étapes où les machines suggèrent des étiquettes et où les humains peaufinent ces suggestions. La combinaison de la rapidité des machines et de l'exactitude humaine a permis d'améliorer la qualité des annotations.

L'impact de COCONut

On s'attend à ce que COCONut aide grandement la communauté de la vision par ordinateur. Avec ses annotations de haute qualité, les chercheurs seront mieux équipés pour évaluer de nouveaux algorithmes et modèles. L'ensemble de données fournit une ressource en open source, ce qui veut dire que tout le monde peut l'utiliser pour tester ses modèles.

COCONut se démarque parce qu'il harmonise les annotations de segmentation à travers différentes tâches. Cette fonctionnalité permet des comparaisons plus simples entre les modèles et une meilleure compréhension de leurs performances.

Comparaison entre COCONut et COCO

Quand on compare COCONut à COCO, plusieurs différences clés apparaissent. D'abord, COCONut a beaucoup plus d'images et des annotations de meilleure qualité. Ça garantit une représentation plus précise des objets du monde réel, aidant à mieux entraîner les modèles.

Le nouvel ensemble de données a été construit en collectant soigneusement des images et en travaillant à améliorer le processus d'étiquetage. Par exemple, COCONut inclut des masques d'étiquettes vérifiés par des humains pour de nombreuses images, ce qui mène à une plus grande précision que les ensembles de données précédents.

Défis dans la création de COCONut

La création de COCONut n'a pas été sans défis. Annoter des images à grande échelle prend beaucoup de temps et nécessite beaucoup de ressources. Par exemple, juste un expert peut mettre longtemps à étiqueter une seule image. Pour accélérer ce processus, une équipe d'évaluateurs a travaillé ensemble, utilisant à la fois des machines et des efforts manuels pour rendre la tâche plus gérable.

En utilisant une approche systématique, incluant différentes étapes d'assistance par machine, l'équipe du projet a pu surmonter certaines des difficultés liées à la création d'un si vaste ensemble de données.

Futur de la segmentation d'images

La sortie de COCONut pourrait changer la façon dont les chercheurs abordent les tâches de segmentation d'images. Avec son ensemble de données plus large et plus détaillé, les modèles formés sur COCONut devraient mieux performer dans des applications réelles. On espère que ces avancées mèneront à des technologies améliorées dans des domaines comme la conduite autonome, l'imagerie médicale, et au-delà.

Conclusion

En résumé, COCONut représente un pas en avant significatif dans les ensembles de données de segmentation d'images. Il combine des annotations de haute qualité avec une grande et diverse collection d'images. Les processus rigoureux en place pour vérifier et valider les étiquettes ont le potentiel d'améliorer la façon dont les modèles comprennent et prédisent les objets dans les images. Les chercheurs disposent maintenant d'un outil puissant à leur disposition, ouvrant la voie à de nouvelles avancées dans la vision par ordinateur et la compréhension des images.

Source originale

Titre: COCONut: Modernizing COCO Segmentation

Résumé: In recent decades, the vision community has witnessed remarkable progress in visual recognition, partially owing to advancements in dataset benchmarks. Notably, the established COCO benchmark has propelled the development of modern detection and segmentation systems. However, the COCO segmentation benchmark has seen comparatively slow improvement over the last decade. Originally equipped with coarse polygon annotations for thing instances, it gradually incorporated coarse superpixel annotations for stuff regions, which were subsequently heuristically amalgamated to yield panoptic segmentation annotations. These annotations, executed by different groups of raters, have resulted not only in coarse segmentation masks but also in inconsistencies between segmentation types. In this study, we undertake a comprehensive reevaluation of the COCO segmentation annotations. By enhancing the annotation quality and expanding the dataset to encompass 383K images with more than 5.18M panoptic masks, we introduce COCONut, the COCO Next Universal segmenTation dataset. COCONut harmonizes segmentation annotations across semantic, instance, and panoptic segmentation with meticulously crafted high-quality masks, and establishes a robust benchmark for all segmentation tasks. To our knowledge, COCONut stands as the inaugural large-scale universal segmentation dataset, verified by human raters. We anticipate that the release of COCONut will significantly contribute to the community's ability to assess the progress of novel neural networks.

Auteurs: Xueqing Deng, Qihang Yu, Peng Wang, Xiaohui Shen, Liang-Chieh Chen

Dernière mise à jour: 2024-04-12 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2404.08639

Source PDF: https://arxiv.org/pdf/2404.08639

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires