Sci Simple

New Science Research Articles Everyday

# Informatique # Vision par ordinateur et reconnaissance des formes

Débloquer les conversations : le dataset VisionArena

Explore le nouveau dataset VisionArena qui améliore les interactions IA avec de vraies discussions d'utilisateurs.

Christopher Chou, Lisa Dunlap, Koki Mashita, Krishna Mandal, Trevor Darrell, Ion Stoica, Joseph E. Gonzalez, Wei-Lin Chiang

― 6 min lire


VisionArena : Jeu de VisionArena : Jeu de Données de Conversation AI les utilisateurs. les interactions entre les machines et Une ressource puissante pour améliorer
Table des matières

Dans le monde de l'intelligence artificielle, y a de plus en plus d'intérêt pour la façon dont les machines comprennent à la fois les images et le texte. Ça a conduit au développement de modèles de langage visuel (VLMs) conçus pour gérer des tâches qui impliquent à la fois du contenu visuel et textual. Une contribution récente à ce domaine est un dataset appelé VisionArena, qui se compose de 230 000 vraies conversations entre des utilisateurs et des VLMs. Le but de ce dataset est d'offrir un aperçu de la manière dont les gens interagissent avec ces modèles dans différentes situations.

Qu'est-ce que VisionArena ?

VisionArena est une collection de discussions qui permet aux utilisateurs de parler à 45 VLMs différents dans 138 langues. Ça a été créé à partir de données collectées via une plateforme en ligne où les utilisateurs peuvent interagir avec les VLMs et exprimer leurs préférences, un peu comme un jeu télé où les candidats s'affrontent. Le dataset comprend trois sections principales :

  1. VisionArena-Chat : 200 000 conversations simples et multi-tours axées sur diverses questions.
  2. VisionArena-Battle : 30 000 conversations organisées pour comparer deux VLMs différents côte à côte, avec les utilisateurs indiquant leurs préférences.
  3. VisionArena-Bench : Une collection de 500 prompts utilisés pour évaluer la performance de ces modèles.

Pourquoi avons-nous besoin de ce dataset ?

Avec l'avancée de la technologie, notre façon d'interagir avec les machines change aussi. Les benchmarks traditionnels pour les VLMs se sont principalement concentrés sur des tâches statiques, ce qui signifie qu'ils ne capturent pas pleinement la nature dynamique des vraies conversations. VisionArena vise à corriger ça en fournissant un dataset qui reflète comment les utilisateurs interagissent naturellement avec ces modèles, y compris les dialogues multi-tours et divers contextes.

Comment VisionArena a-t-il été créé ?

VisionArena a été construit à partir d'une plateforme open-source où les utilisateurs pouvaient interagir avec les VLMs. Les données ont été collectées sur plusieurs mois, permettant aux chercheurs de rassembler une tonne de conversations. Les utilisateurs étaient invités à voter pour leurs réponses préférées lors des "battles", ce qui a ajouté un élément de compétition ludique au processus.

Que pouvons-nous apprendre de VisionArena ?

En analysant les conversations de VisionArena, les chercheurs peuvent obtenir des insights précieux sur :

  • Préférences des utilisateurs : Comprendre quels types de réponses les utilisateurs préfèrent en fonction de différents styles et formats.
  • Questions fréquentes : Découvrir les types de requêtes qui sont le plus souvent posées par les utilisateurs. Ça peut mettre en évidence les domaines où les VLMs excellent ou peinent.
  • Performance des modèles : Comparer comment différents modèles se classent en fonction des préférences des utilisateurs aide à identifier les forces et les faiblesses.

Par exemple, le dataset révèle que les tâches ouvertes comme l'humour et l'écriture créative sont particulièrement influencées par le style de réponse. Pendant ce temps, les VLMs actuels ont souvent des problèmes avec les tâches qui nécessitent un raisonnement spatial ou de la planification.

Comparaison de VisionArena avec d'autres datasets

Comparé à des datasets précédents, VisionArena offre trois fois plus de données et une plus grande variété d'interactions. Alors que les benchmarks précédents présentaient souvent des questions fixes et à réponse unique, VisionArena capture la fluidité des discussions multi-tours. Ce dataset plus riche le rend plus pertinent pour développer des modèles plus proches des patterns de conversation humaine.

Comment VisionArena aide-t-il les VLMs à s'améliorer ?

Un des grands avancements apportés par VisionArena est l'idée de l'instruction tuning. En ajustant les VLMs avec des données de VisionArena, les chercheurs ont constaté que les modèles performent mieux sur les benchmarks mesurant les préférences des utilisateurs. Par exemple, un modèle affiné avec les données de VisionArena a montré une amélioration significative par rapport à un entraîné avec des données moins diversifiées.

Interaction utilisateur : Une approche fun

Pour encourager l'engagement des utilisateurs, la plateforme VisionArena propose une fonctionnalité où les utilisateurs peuvent choisir des images aléatoires à discuter. Cet aspect interactif rend l'expérience agréable et aide à rassembler une variété de types de conversations. Les utilisateurs peuvent discuter avec des VLMs tout en explorant des images, rendant ça moins ennuyeux et plus comme une activité amusante.

Modération et mesures de sécurité

Pour garantir un environnement sûr, VisionArena met en œuvre différentes étapes de modération. Les conversations sont filtrées pour le contenu inapproprié, et les utilisateurs doivent accepter les conditions d'utilisation avant que leurs données ne soient collectées. Ça aide à maintenir un espace d'interaction respectueux et inclusif.

Défis pour les VLMs

Malgré les améliorations offertes par des datasets comme VisionArena, il y a encore des défis notables. Les modèles ont souvent du mal avec des tâches de raisonnement complexe, une compréhension visuelle avancée, et des situations impliquant des comptages ou des relations spatiales. Ces problèmes soulignent le besoin continu d'améliorations dans la façon dont les VLMs traitent et intègrent l'information visuelle et textuelle.

Directions futures

En regardant vers l'avenir, il y a une envie d'élargir les capacités de VisionArena en incorporant une plus grande diversité de langues et de contextes. Les chercheurs visent à encourager une participation plus large des utilisateurs de différents horizons pour enrichir encore plus le dataset. Cette expansion aidera à combler les lacunes dans la compréhension des interactions des utilisateurs à travers diverses applications.

Conclusion

VisionArena représente une avancée significative dans l'étude des modèles de langage visuel. En rassemblant des données du monde réel à partir des interactions des utilisateurs, il fournit une ressource essentielle pour les chercheurs cherchant à améliorer la performance des modèles et à mieux comprendre les préférences des utilisateurs. Alors que la technologie continue d'évoluer, des datasets comme VisionArena joueront un rôle essentiel dans la façon dont l'interaction homme-machine se développe de manière plus naturelle et engageante.

En bref, VisionArena ne concerne pas seulement les données ; c'est aussi créer une façon fun et efficace pour les machines d'apprendre à mieux communiquer avec nous. Et qui sait, peut-être qu'un jour nos VLMs nous raconteront des blagues aussi !

Source originale

Titre: VisionArena: 230K Real World User-VLM Conversations with Preference Labels

Résumé: With the growing adoption and capabilities of vision-language models (VLMs) comes the need for benchmarks that capture authentic user-VLM interactions. In response, we create VisionArena, a dataset of 230K real-world conversations between users and VLMs. Collected from Chatbot Arena - an open-source platform where users interact with VLMs and submit preference votes - VisionArena spans 73K unique users, 45 VLMs, and 138 languages. Our dataset contains three subsets: VisionArena-Chat, 200k single and multi-turn conversations between a user and a VLM; VisionArena-Battle, 30K conversations comparing two anonymous VLMs with user preference votes; and VisionArena-Bench, an automatic benchmark of 500 diverse user prompts that efficiently approximate the live Chatbot Arena model rankings. Additionally, we highlight the types of question asked by users, the influence of response style on preference, and areas where models often fail. We find open-ended tasks like captioning and humor are highly style-dependent, and current VLMs struggle with spatial reasoning and planning tasks. Lastly, we show finetuning the same base model on VisionArena-Chat outperforms Llava-Instruct-158K, with a 17-point gain on MMMU and a 46-point gain on the WildVision benchmark. Dataset at https://huggingface.co/lmarena-ai

Auteurs: Christopher Chou, Lisa Dunlap, Koki Mashita, Krishna Mandal, Trevor Darrell, Ion Stoica, Joseph E. Gonzalez, Wei-Lin Chiang

Dernière mise à jour: 2024-12-13 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2412.08687

Source PDF: https://arxiv.org/pdf/2412.08687

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires

Vision par ordinateur et reconnaissance des formes Révolutionner la navigation intérieure avec RoomTour3D

Les robots IA apprennent la navigation grâce à des vidéos d'intérieur dans le monde réel pour améliorer leurs déplacements.

Mingfei Han, Liang Ma, Kamila Zhumakhanova

― 8 min lire