Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Améliorer la localisation des objets avec une saisie par croquis

Une nouvelle méthode améliore la localisation d'objets grâce à des croquis dessinés par les utilisateurs.

― 6 min lire


Esquisse d'entrée pourEsquisse d'entrée pourune meilleurelocalisation d'objetd'utilisateurs dans des imageslocalisation en utilisant des croquisUne nouvelle méthode améliore la
Table des matières

Détecter des objets dans des images, c'est super important en vision par ordinateur. Ces dernières années, ce domaine a pas mal progressé grâce aux avancées en deep learning. La plupart des systèmes actuels peuvent identifier avec précision les objets sur lesquels ils ont été formés. Par contre, ils galèrent souvent avec des objets qu'ils n'ont jamais vus. C'est là que la localisation d'objets basée sur des esquisses entre en jeu. Avec cette méthode, les utilisateurs peuvent dessiner une simple esquisse d'un objet, et le système essaie de le localiser dans une image naturelle.

Le défi de la localisation d'objets basée sur des esquisses

La localisation d'objets basée sur des esquisses présente des défis uniques. Quand les utilisateurs dessinent des esquisses, ces dessins manquent souvent de détails et peuvent vraiment varier en style et qualité. En plus, il y a un gros écart entre les esquisses simples et les images naturelles complexes auxquelles elles sont censées se rapporter. Par exemple, si quelqu'un esquisse un bol de fruits, le dessin peut ne pas capturer toutes les couleurs, formes et détails de l'image originale. Le but, c'est de faire correspondre cette esquisse à toutes les instances du même objet dans une photo.

Pour adresser ces problèmes, des chercheurs ont introduit différentes méthodes qui utilisent des Mécanismes d'attention pour mieux aligner les esquisses avec leurs images correspondantes. Ces méthodes permettent aux systèmes de se concentrer sur des zones spécifiques de l'image selon les infos fournies par l'esquisse. Cependant, beaucoup de techniques existantes n'arrivent pas à combiner efficacement les infos de l'esquisse avant que les caractéristiques de l'image ne soient déjà apprises, ce qui peut mener à une localisation inexacte.

Méthode proposée

Pour surmonter ces limitations, une nouvelle approche utilise un encodeur spécialisé qui apprend à traiter les images en tandem avec leurs esquisses correspondantes. Ce système utilise une forme unique d'attention qui lui permet de combiner les caractéristiques de l'esquisse avec celles de l'image à chaque étape du traitement. En faisant ça, le modèle aligne mieux les caractéristiques de l'image avec l'esquisse dessinée, améliorant sa capacité à identifier l'objet.

L'innovation réside dans la capacité du modèle à affiner sa compréhension à la fois de l'esquisse et des objets présents dans l'image. En faisant cela, il s'assure que les caractéristiques pertinentes des objets soient rapprochées de l'esquisse à chaque étape du traitement. Cette méthode aide non seulement avec des objets que le système connaît déjà, mais améliore aussi les performances pour des objets qu'il n'a jamais vus.

Avantages de la nouvelle approche

Utiliser cette nouvelle méthode permet au système de mieux s'adapter à divers esquisses et d'améliorer sa capacité à localiser des objets inconnus. Il y parvient grâce à deux principaux avantages : une meilleure représentation de l'image cible et un affinement renforcé des caractéristiques des objets.

Meilleure représentation de l'image

En traitant l'esquisse et l'image en même temps, le modèle crée une représentation de l'image qui est plus étroitement alignée avec l'esquisse. Ça rend plus facile pour le système d'identifier les parties pertinentes de l'image qui correspondent à l'objet dessiné.

Affinement renforcé des caractéristiques

Après que l'image ait été traitée, le modèle affine sa compréhension des objets détectés et de l'esquisse. Cet affinement garantit que le système peut évaluer et localiser plus précisément les objets dans l'image qui correspondent à l'esquisse dessinée à la main.

Tester le modèle

La méthode proposée a été testée en utilisant des ensembles de données publics. Ces tests ont impliqué d'utiliser des esquisses de deux collections différentes pour localiser divers types d'objets dans des images naturelles. Les résultats ont montré une amélioration marquée de la capacité du système à localiser des objets avec précision par rapport à de nombreuses méthodes existantes.

Quand une seule esquisse était utilisée comme entrée, le modèle a réussi à identifier des catégories d'objets déjà vues. En plus, dans les cas où des objets n'étaient pas inclus dans les données d'entraînement, le modèle a quand même bien performé. Cet aspect est particulièrement important pour des applications pratiques où les utilisateurs n'ont pas toujours d'images de référence disponibles.

Paramètres ouverts et multi-requêtes

Une autre caractéristique excitante de cette approche est sa capacité à fonctionner dans des environnements ouverts. Dans ces scénarios, le modèle peut prendre des esquisses d'objets qu'il n'a jamais rencontrés pendant l'entraînement et les localiser quand même avec précision.

De plus, le système peut gérer plusieurs esquisses en même temps. Quand les utilisateurs fournissent plus d'une esquisse, le modèle combine intelligemment les caractéristiques de ces esquisses, permettant une localisation plus nuancée. Cette fonctionnalité multi-requêtes tire parti des différentes informations que chaque esquisse peut offrir, améliorant la performance globale.

Résultats qualitatifs

Des exemples visuels montrent comment la méthode proposée fonctionne en pratique. Le système parvient à localiser des objets dans diverses situations difficiles, y compris des cas où les objets sont occultés ou partiellement cachés. Il montre aussi la capacité d'identifier plusieurs instances du même objet dans la même image.

À travers une analyse qualitative, il est évident que les mécanismes d'attention améliorés aident le système à se concentrer sur des zones pertinentes dans des scènes complexes. C'est crucial, car les images du monde réel contiennent souvent du désordre et des objets qui se chevauchent.

Conclusion

En résumé, la méthode de localisation d'objets guidée par esquisse proposée représente un pas en avant significatif dans le domaine de la vision par ordinateur. En traitant les esquisses et les images ensemble, le modèle réussit à mieux aligner les caractéristiques, ce qui conduit à une précision accrue de la localisation. Il se démarque non seulement dans la reconnaissance d'objets connus, mais aussi dans l'adaptation à de nouvelles catégories d'objets inconnues.

Malgré ces avancées, la tâche de localisation d'objets basée sur des esquisses est toujours confrontée à des défis qui nécessitent des recherches supplémentaires. L'objectif est d'affiner ce processus, facilitant aux utilisateurs le fait de dessiner des esquisses simples et d'obtenir des résultats précis en retour. Ce travail encourage les investigations continues et l'innovation dans la recherche de meilleures techniques de localisation d'objets, améliorant finalement l'expérience utilisateur et élargissant les applications dans divers domaines.

Source originale

Titre: Query-guided Attention in Vision Transformers for Localizing Objects Using a Single Sketch

Résumé: In this work, we investigate the problem of sketch-based object localization on natural images, where given a crude hand-drawn sketch of an object, the goal is to localize all the instances of the same object on the target image. This problem proves difficult due to the abstract nature of hand-drawn sketches, variations in the style and quality of sketches, and the large domain gap existing between the sketches and the natural images. To mitigate these challenges, existing works proposed attention-based frameworks to incorporate query information into the image features. However, in these works, the query features are incorporated after the image features have already been independently learned, leading to inadequate alignment. In contrast, we propose a sketch-guided vision transformer encoder that uses cross-attention after each block of the transformer-based image encoder to learn query-conditioned image features leading to stronger alignment with the query sketch. Further, at the output of the decoder, the object and the sketch features are refined to bring the representation of relevant objects closer to the sketch query and thereby improve the localization. The proposed model also generalizes to the object categories not seen during training, as the target image features learned by our method are query-aware. Our localization framework can also utilize multiple sketch queries via a trainable novel sketch fusion strategy. The model is evaluated on the images from the public object detection benchmark, namely MS-COCO, using the sketch queries from QuickDraw! and Sketchy datasets. Compared with existing localization methods, the proposed approach gives a $6.6\%$ and $8.0\%$ improvement in mAP for seen objects using sketch queries from QuickDraw! and Sketchy datasets, respectively, and a $12.2\%$ improvement in AP@50 for large objects that are `unseen' during training.

Auteurs: Aditay Tripathi, Anand Mishra, Anirban Chakraborty

Dernière mise à jour: 2023-03-15 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2303.08784

Source PDF: https://arxiv.org/pdf/2303.08784

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires