Sci Simple

New Science Research Articles Everyday

# Informática # Visão computacional e reconhecimento de padrões

Desbloqueando Conversas: O Dataset VisionArena

Explore o novo conjunto de dados VisionArena que melhora as interações de IA com chats de usuários reais.

Christopher Chou, Lisa Dunlap, Koki Mashita, Krishna Mandal, Trevor Darrell, Ion Stoica, Joseph E. Gonzalez, Wei-Lin Chiang

― 6 min ler


VisionArena: Conjunto de VisionArena: Conjunto de Dados de Conversação com IA usuários. interações das máquinas com os Um recurso poderoso pra melhorar as
Índice

No mundo da inteligência artificial, tem rolado um interesse crescente em como as máquinas entendem tanto imagens quanto textos. Isso levou ao desenvolvimento de modelos de visão-linguagem (VLMs) que são feitos pra lidar com tarefas que envolvem conteúdo visual e textual. Uma contribuição recente nessa área é um dataset chamado VisionArena, que consiste em 230.000 conversas reais entre usuários e VLMs. O objetivo desse dataset é oferecer insights sobre como as pessoas interagem com esses modelos em várias situações.

O Que É o VisionArena?

VisionArena é uma coleção de conversas que permitem que os usuários falem com 45 VLMs diferentes em 138 idiomas. Foi criado a partir de dados coletados em uma plataforma online onde os usuários podem interagir com os VLMs e expressar suas preferências, meio que como um programa de jogos onde os competidores se enfrentam. O dataset inclui três seções principais:

  1. VisionArena-Chat: 200.000 conversas de uma ou várias rodadas focadas em várias perguntas.
  2. VisionArena-Battle: 30.000 conversas montadas pra comparar dois VLMs diferentes lado a lado, com os usuários indicando suas preferências.
  3. VisionArena-Bench: Uma coleção de 500 prompts usados pra avaliar o desempenho desses modelos.

Por Que Precisamos Desse Dataset?

À medida que a tecnologia avança, a forma como interagimos com as máquinas também muda. Os benchmarks tradicionais para VLMs geralmente focavam em tarefas estáticas, o que significa que não capturam completamente a dinâmica das conversas reais. O VisionArena busca resolver isso oferecendo um dataset que reflete como os usuários naturalmente se engajam com esses modelos, incluindo diálogos de várias rodadas e uma variedade de contextos.

Como Foi Criado o VisionArena?

O VisionArena foi criado a partir de uma plataforma de código aberto onde os usuários podiam interagir com os VLMs. Os dados foram coletados ao longo de vários meses, permitindo que os pesquisadores reunissem uma tonelada de conversas. Os usuários foram convidados a votar nas respostas que preferiam durante as "batalhas", o que adicionou um elemento de competição tipo jogo ao processo.

O Que Podemos Aprender com o VisionArena?

Analisando as conversas no VisionArena, os pesquisadores podem obter insights valiosos sobre:

  • Preferências dos Usuários: Entender que tipos de respostas os usuários preferem com base em diferentes estilos e formatos.
  • Perguntas Comuns: Descobrir os tipos de perguntas que são feitas com mais frequência pelos usuários. Isso pode destacar áreas onde os VLMs se destacam ou têm dificuldades.
  • Desempenho dos Modelos: Comparar como diferentes modelos se classificam com base nas preferências dos usuários ajuda a identificar pontos fortes e fracos.

Por exemplo, o dataset revela que tarefas abertas como humor e escrita criativa são particularmente influenciadas pelo estilo da resposta. Enquanto isso, os VLMs atuais frequentemente têm problemas com tarefas que exigem raciocínio espacial ou planejamento.

Comparação do VisionArena com Outros Datasets

Comparado a datasets anteriores, o VisionArena oferece três vezes mais dados e uma gama mais ampla de interações. Enquanto benchmarks anteriores geralmente apresentavam perguntas fixas e de uma única rodada, o VisionArena captura a fluidez das conversas de várias rodadas. Esse dataset mais rico o torna mais relevante para o desenvolvimento de modelos que se aproximam dos padrões de conversa humana.

Como o VisionArena Ajuda os VLMs a Melhorar?

Um dos grandes avanços trazidos pelo VisionArena é a ideia de Ajuste de Instruções. Ao ajustar VLMs com dados do VisionArena, os pesquisadores descobriram que os modelos se saem melhor em benchmarks que medem a preferência do usuário. Por exemplo, um modelo ajustado usando dados do VisionArena mostrou uma melhoria significativa em comparação com um treinado com dados menos diversos.

Interação do Usuário: Uma Abordagem Divertida

Pra incentivar o engajamento dos usuários, a plataforma VisionArena oferece um recurso onde os usuários podem selecionar imagens aleatórias para discutir. Esse aspecto interativo torna a experiência divertida e ajuda a coletar uma variedade de tipos de conversa. Os usuários podem conversar com os VLMs enquanto exploram imagens, fazendo com que pareça menos uma tarefa e mais uma atividade envolvente.

Moderação e Medidas de Segurança

Pra garantir um ambiente seguro, o VisionArena implementa várias etapas de moderação. As conversas são analisadas quanto a conteúdos inadequados, e os usuários precisam concordar com os termos de uso antes que seus dados sejam coletados. Isso ajuda a manter um espaço de interação respeitoso e inclusivo.

Desafios para os VLMs

Apesar das melhorias trazidas por datasets como o VisionArena, ainda existem desafios notáveis. Os modelos frequentemente têm dificuldades com tarefas de raciocínio complexo, compreensão visual avançada e situações que envolvem contagem ou relações espaciais. Esses problemas destacam a necessidade contínua de melhorias em como os VLMs processam e integram informações visuais e textuais.

Direções Futuras

Olhando pra frente, há um desejo de expandir as capacidades do VisionArena incorporando uma gama mais diversa de idiomas e contextos. Os pesquisadores pretendem incentivar uma participação mais ampla de usuários de diferentes origens pra enriquecer ainda mais o dataset. Essa expansão ajudará a fechar lacunas na compreensão das interações dos usuários em várias aplicações.

Conclusão

O VisionArena representa um avanço significativo no estudo de modelos de visão-linguagem. Ao reunir dados do mundo real a partir das interações dos usuários, oferece um recurso crítico para pesquisadores que buscam melhorar o desempenho dos modelos e entender melhor as preferências dos usuários. À medida que a tecnologia continua a evoluir, datasets como o VisionArena terão um papel essencial em moldar o futuro da interação humano-computador de uma maneira que pareça mais natural e envolvente.

Resumindo, o VisionArena não é só sobre dados; é sobre criar uma maneira divertida e eficaz de as máquinas aprenderem a conversar melhor com a gente. E quem sabe, um dia nossos VLMs também não vão nos contar piadas!

Fonte original

Título: VisionArena: 230K Real World User-VLM Conversations with Preference Labels

Resumo: With the growing adoption and capabilities of vision-language models (VLMs) comes the need for benchmarks that capture authentic user-VLM interactions. In response, we create VisionArena, a dataset of 230K real-world conversations between users and VLMs. Collected from Chatbot Arena - an open-source platform where users interact with VLMs and submit preference votes - VisionArena spans 73K unique users, 45 VLMs, and 138 languages. Our dataset contains three subsets: VisionArena-Chat, 200k single and multi-turn conversations between a user and a VLM; VisionArena-Battle, 30K conversations comparing two anonymous VLMs with user preference votes; and VisionArena-Bench, an automatic benchmark of 500 diverse user prompts that efficiently approximate the live Chatbot Arena model rankings. Additionally, we highlight the types of question asked by users, the influence of response style on preference, and areas where models often fail. We find open-ended tasks like captioning and humor are highly style-dependent, and current VLMs struggle with spatial reasoning and planning tasks. Lastly, we show finetuning the same base model on VisionArena-Chat outperforms Llava-Instruct-158K, with a 17-point gain on MMMU and a 46-point gain on the WildVision benchmark. Dataset at https://huggingface.co/lmarena-ai

Autores: Christopher Chou, Lisa Dunlap, Koki Mashita, Krishna Mandal, Trevor Darrell, Ion Stoica, Joseph E. Gonzalez, Wei-Lin Chiang

Última atualização: 2024-12-13 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2412.08687

Fonte PDF: https://arxiv.org/pdf/2412.08687

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes