Nouveau modèle améliore la reconnaissance des entités visuelles
Un nouveau modèle améliore la reconnaissance des images par les ordinateurs grâce à la compréhension du langage.
― 4 min lire
Table des matières
Cet article parle d'un nouveau modèle qui aide les ordinateurs à Reconnaître des entités visuelles, comme des objets ou des personnes, dans des images basées sur des descriptions textuelles. Cette technologie est importante parce qu'elle permet aux ordinateurs de répondre à des questions spécifiques sur des images en identifiant les bonnes entités. Le modèle utilise une méthode où il regarde à la fois des images et du texte pour prendre ses décisions, ce qui mène à une meilleure précision dans la reconnaissance d'entités qui n'avaient peut-être jamais été vues avant.
Le Problème
Reconnaître des entités à partir d'images peut être difficile. Un ordinateur peut devoir repérer des objets qu'il n'a jamais vus durant l'Entraînement, ce qui rend la tâche compliquée. Par exemple, si quelqu'un pose une question sur un modèle d'avion spécifique dans une image, l'ordinateur doit non seulement reconnaître l'avion mais aussi le relier au bon nom, comme "ATR 42". Beaucoup de systèmes existants peuvent donner de fausses réponses parce qu'ils peuvent se tromper à cause d'objets qui se ressemblent.
La Solution
Le nouveau modèle améliore les systèmes antérieurs en utilisant une approche unique pour la reconnaissance du langage et des images. Il emploie une technique spécifique où il récupère des réponses possibles avant de les générer, réduisant ainsi les chances d'erreurs. Le modèle ne devine pas à l'aveugle ; il s'appuie sur des données déjà prouvées et organise sa réponse soigneusement.
Comment ça Marche
Combinaison d'Images et de Texte : Le modèle apprend à traiter les images et le texte ensemble. Quand il voit une question sur une image, il convertit l'image en une forme qu'il peut comprendre (des embeddings de tokens) et se prépare à générer des réponses.
Récupération de Candidats : Au lieu de générer des réponses de zéro, le modèle récupère une liste de réponses potentielles d'une base de données, en se concentrant sur des entités similaires basées sur les données visuelles.
Génération Guidée : Une fois que le modèle a ses candidats, il utilise une méthode structurée pour générer la réponse finale. Ce processus évite des options inutiles et incorrectes en suivant un chemin qui exclut les erreurs.
Entraînement : Le modèle apprend grâce à un type spécial d'entraînement qui améliore sa capacité à distinguer entre des entités similaires. En utilisant des paires d'entités qui sont difficiles à différencier, il apprend ce qui rend une entité distincte d'une autre.
Réalisations
En utilisant cette approche, le modèle a montré des améliorations significatives en précision lorsqu'il a été testé sur divers ensembles de données. Par exemple, il a augmenté ses prédictions correctes d'un pourcentage notable, suggérant qu'il peut mieux gérer la complexité de la reconnaissance d'entités visuelles par rapport aux modèles plus anciens.
Applications Pratiques
Les techniques développées peuvent être appliquées dans divers domaines :
- Moteurs de Recherche d'Images : Les utilisateurs peuvent rechercher des objets spécifiques dans des images plus efficacement.
- Assistants Intelligents : Les appareils peuvent mieux comprendre des questions liées aux images, améliorant l'interaction avec l'utilisateur.
- Création de Contenu : Les créateurs peuvent automatiquement générer des descriptions précises pour des images, améliorant l'accessibilité.
Défis à Venir
Malgré les succès, il reste des défis à relever :
- Gestion d'Entités Inconnues : Le modèle doit s'améliorer dans la reconnaissance d'entités complètement nouvelles qui ne faisaient pas partie des données d'entraînement.
- Vitesse et Efficacité : À mesure que les modèles deviennent plus complexes, ils doivent aussi être efficaces pour des applications en temps réel.
Conclusion
En conclusion, les avancées réalisées par ce modèle offrent des promesses pour l'avenir de la reconnaissance d'entités visuelles. En combinant efficacement la compréhension du langage avec les informations visuelles, il ouvre la voie à des systèmes plus intelligents qui peuvent interagir avec le monde de manière significative. Au fur et à mesure que la recherche progresse, nous attendons avec impatience des développements encore plus grands qui répondent aux limitations actuelles et élargissent les possibilités de ce que les machines peuvent accomplir.
Titre: Grounding Language Models for Visual Entity Recognition
Résumé: We introduce AutoVER, an Autoregressive model for Visual Entity Recognition. Our model extends an autoregressive Multi-modal Large Language Model by employing retrieval augmented constrained generation. It mitigates low performance on out-of-domain entities while excelling in queries that require visually-situated reasoning. Our method learns to distinguish similar entities within a vast label space by contrastively training on hard negative pairs in parallel with a sequence-to-sequence objective without an external retriever. During inference, a list of retrieved candidate answers explicitly guides language generation by removing invalid decoding paths. The proposed method achieves significant improvements across different dataset splits in the recently proposed Oven-Wiki benchmark. Accuracy on the Entity seen split rises from 32.7% to 61.5%. It also demonstrates superior performance on the unseen and query splits by a substantial double-digit margin.
Auteurs: Zilin Xiao, Ming Gong, Paola Cascante-Bonilla, Xingyao Zhang, Jie Wu, Vicente Ordonez
Dernière mise à jour: 2024-07-26 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2402.18695
Source PDF: https://arxiv.org/pdf/2402.18695
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.