Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Présentation de SOLIDER : Une nouvelle approche pour comprendre les gens sur les images

SOLIDER améliore l'analyse d'image en équilibrant les infos sémantiques et d'apparence pour les tâches centrées sur l'humain.

― 6 min lire


SOLIDER : NouvelleSOLIDER : Nouvellemanière d'analyser desimagescompréhension des gens sur les images.Une méthode qui améliore la
Table des matières

Les tâches visuelles centrées sur l'humain deviennent de plus en plus importantes dans divers domaines comme la sécurité, le sport et le divertissement. Cet article parle d'une nouvelle méthode qui aide les ordinateurs à comprendre les gens sur les images, ce qui facilite le travail avec de vastes ensembles de photos sans étiquettes.

La méthode s'appelle SOLIDER. Elle apprend à comprendre les gens dans les images en utilisant plein de photos non étiquetées. L'objectif est de créer un système qui peut être utile pour plein de tâches différentes, comme identifier une personne dans une foule ou comprendre différentes caractéristiques humaines.

Le défi

Un des principaux défis est que différentes tâches nécessitent différents types d'informations. Par exemple, si tu veux identifier une personne, tu pourrais avoir besoin de plus de détails sur son apparence, alors que si tu essaies de comprendre les parties d'un corps humain, tu auras besoin de plus d'informations sémantiques ou contextuelles.

Les méthodes traditionnelles créent souvent une seule façon de voir les images, ce qui ne fonctionne pas bien pour chaque tâche. C'est là que SOLIDER entre en jeu.

La méthode SOLIDER

SOLIDER fonctionne en utilisant des connaissances antérieures sur les images humaines pour créer des étiquettes qui aident à mieux comprendre le contenu. En assignant différentes significations à diverses parties d'une image, ça rend plus facile l'identification de différentes caractéristiques humaines. Ça se fait en plusieurs étapes :

  1. Création des Étiquettes sémantiques : SOLIDER regarde plein d'images humaines et trouve des motifs. Par exemple, il peut identifier que la partie supérieure de l'image montre généralement le haut du corps d'une personne, tandis que le bas montre ses chaussures. En utilisant ce motif, il donne des étiquettes aux différentes parties des images.

  2. Entraînement d'un modèle : Avec ces étiquettes, le système peut ensuite s'entraîner à reconnaître ces parties dans de nouvelles images. Il utilise une technique appelée "Apprentissage auto-supervisé", ce qui signifie qu'il apprend à partir des données elles-mêmes sans avoir besoin d'instructions spécifiques.

  3. Contrôleur sémantique : Ce qui rend SOLIDER unique, c'est l'ajout d'un contrôleur sémantique. Ce contrôleur peut ajuster combien d'informations sémantiques ou d'apparence le modèle utilise. Par exemple, si une tâche nécessite plus de concentration sur l'apparence, les utilisateurs peuvent dire au contrôleur de donner la priorité à cette information.

Applications

La méthode SOLIDER peut être appliquée à plusieurs tâches. Voici quelques exemples :

  1. Ré-identification de personnes : Cette tâche consiste à retrouver la même personne à travers différentes caméras. Un système qui comprend bien l'apparence sera plus efficace ici.

  2. Détection de piétons : Ici, comprendre les parties du corps et leur agencement est plus crucial. Donc, mettre plus l'accent sur les informations sémantiques est bénéfique.

  3. Analyse humaine et estimation de pose : Dans ces tâches, être conscient des différentes parties du corps et de leurs positions est essentiel pour fournir des résultats précis.

En ajustant l'équilibre entre les informations d'apparence et sémantiques, SOLIDER peut s'adapter à ces tâches plus efficacement.

Travaux antérieurs

Dans le passé, plusieurs méthodes ont été développées pour comprendre les images sans étiquettes. Les techniques incluent l'apprentissage contrasté, où le système apprend en comparant différentes images, et la modélisation d'images masquées, où il prédit des parties d'une image qui sont cachées. Cependant, ces méthodes se concentrent souvent sur l'apparence et ne s'adressent pas spécifiquement aux tâches centrées sur l'humain.

Certains chercheurs ont travaillé à améliorer l'apprentissage auto-supervisé pour des tâches centrées sur l'humain, mais les résultats sont souvent décevants quand ils sont appliqués à différentes tâches en raison d'un manque d'informations sémantiques.

Les avantages de SOLIDER

L'introduction des étiquettes sémantiques permet à SOLIDER d'apprendre avec un contexte plus significatif. Il peut classer efficacement différentes parties d'une image tout en tenant compte de leur apparence visuelle.

Le contrôleur sémantique offre de la flexibilité. En ajustant l'équilibre des informations, SOLIDER permet une meilleure performance dans diverses tâches. Cela en fait un outil polyvalent dans le domaine de la vision par ordinateur.

Expérimentation et résultats

Pour tester l'efficacité de SOLIDER, il a été appliqué à plusieurs tâches centrées sur l'humain. Les résultats ont montré que SOLIDER surpassait les méthodes traditionnelles dans la plupart des cas. Ce succès implique que comprendre à la fois l'apparence et les détails sémantiques mène à une meilleure reconnaissance dans les images.

  1. Ré-identification de personnes : Dans cette tâche, SOLIDER a très bien fonctionné. L'équilibre entre les informations d'apparence et sémantiques lui a permis d'identifier les individus efficacement.

  2. Détection de piétons : Cette tâche a bénéficié des informations sémantiques, entraînant de meilleurs résultats par rapport aux méthodes précédentes.

  3. Analyse humaine : Il a montré une grande amélioration dans la compréhension des différentes parties du corps, offrant plus de précision dans les détails.

  4. Estimation de pose : Le système a pu localiser les squelettes du corps humain avec précision, démontrant sa capacité à comprendre le mouvement humain.

Conclusion

SOLIDER présente une nouvelle approche prometteuse pour gérer et analyser les tâches visuelles centrées sur l'humain. En équilibrant efficacement les informations sémantiques et d'apparence, il répond aux lacunes des méthodes traditionnelles. Par conséquent, il a le potentiel d'avancer le domaine de la vision par ordinateur, ouvrant la voie à des applications futures dans divers secteurs.

Grâce à son approche innovante, SOLIDER apprend non seulement davantage sur les gens dans les images, mais le fait aussi d'une manière qui peut être adaptée pour répondre à des besoins spécifiques. Que ce soit pour la sécurité, la santé ou le divertissement, il est clair que cette méthode pave la voie vers des technologies d'analyse visuelle plus intelligentes et réactives.

Source originale

Titre: Beyond Appearance: a Semantic Controllable Self-Supervised Learning Framework for Human-Centric Visual Tasks

Résumé: Human-centric visual tasks have attracted increasing research attention due to their widespread applications. In this paper, we aim to learn a general human representation from massive unlabeled human images which can benefit downstream human-centric tasks to the maximum extent. We call this method SOLIDER, a Semantic cOntrollable seLf-supervIseD lEaRning framework. Unlike the existing self-supervised learning methods, prior knowledge from human images is utilized in SOLIDER to build pseudo semantic labels and import more semantic information into the learned representation. Meanwhile, we note that different downstream tasks always require different ratios of semantic information and appearance information. For example, human parsing requires more semantic information, while person re-identification needs more appearance information for identification purpose. So a single learned representation cannot fit for all requirements. To solve this problem, SOLIDER introduces a conditional network with a semantic controller. After the model is trained, users can send values to the controller to produce representations with different ratios of semantic information, which can fit different needs of downstream tasks. Finally, SOLIDER is verified on six downstream human-centric visual tasks. It outperforms state of the arts and builds new baselines for these tasks. The code is released in https://github.com/tinyvision/SOLIDER.

Auteurs: Weihua Chen, Xianzhe Xu, Jian Jia, Hao luo, Yaohua Wang, Fan Wang, Rong Jin, Xiuyu Sun

Dernière mise à jour: 2023-03-30 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2303.17602

Source PDF: https://arxiv.org/pdf/2303.17602

Licence: https://creativecommons.org/publicdomain/zero/1.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires