Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Computação e linguagem

Apresentando o Conjunto de Dados M IT para o Avanço da IA Multi-Modal

Um novo conjunto de dados pra melhorar modelos de visão-linguagem e seguir instruções humanas.

― 8 min ler


Conjunto de Dados do MITConjunto de Dados do MITMelhora o Seguimento deInstruções de IAmodelos de visão-linguagem.Um grande avanço nas capacidades dos
Índice

A inteligência artificial tá evoluindo muito na hora de entender e seguir ordens humanas em várias tarefas. Um lugar onde isso tá bem claro é nos modelos de linguagem, que agora conseguem lidar melhor com as instruções dadas pelas pessoas. Mas os modelos que entendem tanto imagens quanto texto, conhecidos como Modelos de visão-linguagem, não têm avançado tanto. Isso acontece principalmente porque não tem dados de alta qualidade suficientes pra ajudar a melhorar esses modelos.

Pra resolver isso, a gente tá lançando um novo dataset que junta vários tipos de dados e línguas, que chamamos de M IT. Esse dataset vai ajudar pesquisadores e desenvolvedores a criar modelos que conseguem seguir instruções humanas de um jeito mais eficaz, especialmente quando se trata de trabalhar com imagens e vídeos.

Visão Geral do Dataset M IT

O dataset M IT inclui 40 datasets diferentes e tem cerca de 2,4 milhões de exemplos, além de 400 instruções de tarefa que foram reescritas num formato que combina imagens e texto. Essas tarefas foram traduzidas em 80 idiomas diferentes pra deixar tudo mais acessível. O M IT quer cobrir mais tarefas e fornecer mais dados do que os datasets anteriores da área.

Além disso, a gente criou um modelo chamado Ying-VLM, que foi treinado usando o dataset M IT. Esse modelo promete muito em responder perguntas que precisam de conhecimento sobre o mundo e também consegue lidar com tarefas inéditas em vídeos e instruções em chinês. O dataset tá disponível pra quem quiser usar e estudar.

Contexto

No mundo da inteligência artificial, tá crescendo a tendência de criar assistentes inteligentes que conseguem seguir ordens humanas, igual a como modelos populares como o ChatGPT funcionam. O Ajuste de Instruções é uma técnica que se mostrou eficaz pra aprimorar grandes modelos de linguagem, permitindo que eles entendam e realizem tarefas conforme instruído.

Como o objetivo é construir um assistente inteligente versátil, é fundamental juntar diferentes tipos de dados, como imagens e texto. Isso fez com que os pesquisadores começassem a focar no ajuste de instruções nos domínios de visão-linguagem. Porém, os dados que sustentam os modelos de visão-linguagem existentes não são acessíveis publicamente ou estão disponíveis em idiomas limitados. Essa falta de datasets abrangentes tem atrasado o progresso na área.

Objetivo

O objetivo desse trabalho é avançar a pesquisa em ajuste de instruções apresentando o dataset M IT e demonstrando como ele pode ser usado pra construir modelos multi-modais eficazes. Ao transformar datasets existentes em um formato unificado, a gente espera criar um recurso que estimule mais explorações na área.

Construção do Dataset

O dataset M IT é construído através de um processo de quatro etapas.

Etapa 1: Escrevendo Instruções

Primeiro, anotações humanas foram responsáveis por escrever instruções claras e diversas para cada tarefa. Eles revisaram o dado original e criaram instruções específicas pra garantir que todas as características importantes fossem incluídas.

Etapa 2: Preparação de Dados

Depois, as imagens e textos foram formatados em uma estrutura consistente. Pra maioria dos datasets, a gente manteve as imagens originais e as converteu em um formato que facilita o carregamento. Além disso, adicionamos informações de caixa delimitadora pra indicar regiões importantes das imagens quando necessário.

Etapa 3: Checagem de Qualidade

Na terceira etapa, diferentes anotadores checaram a qualidade dos dados revisando exemplos de cada tarefa. Eles trabalharam pra resolver quaisquer problemas menores de formatação e garantiram que as respostas fornecidas eram precisas.

Etapa 4: Tradução

Por fim, pra promover a diversidade de línguas, tarefas chave foram selecionadas e traduzidas pra vários idiomas. Isso foi feito pra apoiar pesquisas em diferentes línguas e ampliar a usabilidade do dataset.

Estrutura do Dataset

Cada instância no dataset M IT consiste em cinco partes principais:

  1. Imagens: As imagens são armazenadas como strings base64, permitindo fácil acesso e uso.
  2. Instruções: Uma instrução escolhida aleatoriamente é pareada com cada instância pra guiar o modelo sobre o que fazer.
  3. Entradas: Esse campo fornece entradas específicas relacionadas à tarefa, como perguntas pra resposta visual.
  4. Saídas: O resultado esperado pra cada tarefa é registrado, como descrições de imagens ou respostas a perguntas.
  5. Meta Dados: Informações importantes, como IDs de imagem pra referência do dataset original, estão incluídas.

Tarefas Incluídas no Dataset M IT

O dataset M IT cobre uma ampla gama de tarefas que podem ser agrupadas em várias categorias:

Tarefas de Imagem e Texto

Essas incluem tarefas como classificação de imagens, resposta visual a perguntas (responder perguntas sobre imagens) e legendagem de imagens (escrever descrições para imagens).

Tarefas de Raciocínio

Tarefas de raciocínio avaliam quão bem os modelos conseguem pensar em cenários específicos. Isso inclui raciocínio espacial, que analisa como os objetos se relacionam uns com os outros no espaço, e raciocínio de senso comum, que avalia a capacidade de um modelo de aplicar conhecimento geral pra resolver problemas.

Tarefas Baseadas em Conhecimento

Essas tarefas exigem que os modelos usem conhecimento além do que é apresentado nas imagens. Por exemplo, os modelos precisam ser capazes de responder perguntas com base em conhecimento prévio, não apenas no que é visível.

Tarefas de Vídeo e Linguagem

O dataset também inclui tarefas relacionadas a vídeos, como legendagem de vídeo e resposta a perguntas em vídeo. Essas tarefas ajudam a avaliar quão bem os modelos conseguem relacionar conteúdo visual com texto em um formato dinâmico.

Tarefas Multilíngues

Pra apoiar usuários de diferentes culturas e línguas, muitas das tarefas foram traduzidas em vários idiomas, expandindo o potencial do dataset.

Desenvolvimento do Modelo

Pra testar a eficácia do dataset M IT, a gente desenvolveu um modelo de visão-linguagem chamado Ying-VLM. O modelo combina um forte codificador visual com um grande modelo de linguagem pra criar uma ferramenta poderosa que segue ordens humanas.

Procedimento de Treinamento

O processo de treinamento consiste em dois passos principais:

  1. Alinhamento Visual-Texto: Inicialmente, o modelo aprende a alinhar características visuais com texto através da legendagem de imagens. Isso ajuda o modelo a entender a relação entre visuais e linguagem.

  2. Ajuste de Instrução Multi-modal: Nesse segundo passo, o modelo é ajustado usando os dados de instrução do dataset M IT. Isso permite que o modelo se adapte melhor a tarefas multi-modais.

Resultados e Avaliação

Nossos experimentos mostram que o Ying-VLM supera vários modelos base fortes, destacando sua eficácia em lidar com perguntas e tarefas complexas.

Descobertas Principais

  1. Capacidade de Generalização: O modelo Ying-VLM demonstra uma forte capacidade de generalizar em tarefas que ele não viu antes, fornecendo respostas precisas em situações que ele não foi explicitamente treinado.

  2. Desempenho entre Línguas: O modelo também se sai bem em tarefas que envolvem diferentes idiomas, mostrando sua versatilidade e habilidade de trabalhar com dados multilíngues.

  3. Qualidade das Respostas: Os usuários podem esperar respostas mais naturais e relevantes do modelo Ying-VLM, indicando que o processo de ajuste de instruções foi bem-sucedido.

Estudos de Caso

Através de exemplos específicos, dá pra ver como o modelo opera bem. Por exemplo, em tarefas que exigem descrições detalhadas ou raciocínio complexo, o Ying-VLM consistentemente fornece resultados satisfatórios, indicando um maior entendimento das instruções dadas.

Conclusão

O dataset M IT representa um avanço significativo no campo do ajuste de instruções multi-modais. Ele consiste em uma riqueza de tarefas e instruções diversas, junto com suporte multilíngue, que o diferencia dos datasets existentes.

O modelo Ying-VLM ilustra o potencial desse novo dataset, mostrando desempenho aprimorado em várias tarefas e um sólido entendimento das instruções. A gente espera que esse dataset inspire mais pesquisas e desenvolvimentos na criação de agentes multi-modais robustos que possam seguir ordens humanas de forma eficaz.

Direções Futuras

À medida que a pesquisa avança, explorar mais como a diversidade de tarefas e a variedade de instruções afetam o desempenho dos modelos vai ser benéfico. O dataset M IT pode servir como uma base pra futuros estudos que buscam construir modelos melhores, ajudando pesquisadores e praticantes a ultrapassar os limites do que a inteligência artificial pode alcançar em entender e executar instruções humanas.

Ao tornar esse dataset publicamente disponível, a gente visa fomentar colaboração e inovação na área, encorajando mais avanços nas capacidades de IA multi-modal.

Fonte original

Título: M$^3$IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning

Resumo: Instruction tuning has significantly advanced large language models (LLMs) such as ChatGPT, enabling them to align with human instructions across diverse tasks. However, progress in open vision-language models (VLMs) has been limited due to the scarcity of high-quality instruction datasets. To tackle this challenge and promote research in the vision-language field, we introduce the Multi-Modal, Multilingual Instruction Tuning (M$^3$IT) dataset, designed to optimize VLM alignment with human instructions. Our M$^3$IT dataset comprises 40 carefully curated datasets, including 2.4 million instances and 400 manually written task instructions, reformatted into a vision-to-text structure. Key tasks are translated into 80 languages with an advanced translation system, ensuring broader accessibility. M$^3$IT surpasses previous datasets regarding task coverage, instruction number and instance scale. Moreover, we develop Ying-VLM, a VLM model trained on our M$^3$IT dataset, showcasing its potential to answer complex questions requiring world knowledge, generalize to unseen video tasks, and comprehend unseen instructions in Chinese. We have open-sourced the dataset to encourage further research.

Autores: Lei Li, Yuwei Yin, Shicheng Li, Liang Chen, Peiyi Wang, Shuhuai Ren, Mukai Li, Yazheng Yang, Jingjing Xu, Xu Sun, Lingpeng Kong, Qi Liu

Última atualização: 2023-06-08 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2306.04387

Fonte PDF: https://arxiv.org/pdf/2306.04387

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes