Simple Science

Ciência de ponta explicada de forma simples

# Informática# Aprendizagem de máquinas# Inteligência Artificial

Avanços nas Ferramentas de Raciocínio em Aprendizado de Máquina

Nova fonte de dados melhora modelos de aprendizado de máquina em tarefas de raciocínio.

― 8 min ler


Avanço na Raciocínio deAvanço na Raciocínio deAprendizado de Máquinadecisão para agentes digitais.Novas ferramentas melhoram a tomada de
Índice

Desenvolvimentos recentes em aprendizado de máquina têm se concentrado em melhorar a capacidade dos modelos de raciocinar e tomar decisões. Esses avanços vêm de novos designs de modelos, treinamento extenso com grandes quantidades de Dados e conjuntos de dados especiais voltados para tarefas de Raciocínio. Este artigo apresenta uma ferramenta única projetada para criar dados que ajudam a treinar máquinas a pensar em situações do mundo real. Os dados criados consistem em perguntas e respostas que se relacionam com ambientes onde um agente digital existe. Esse agente interage com o mundo e pode fazer mudanças nele.

Os dados gerados incluem Consultas de texto formatadas em modelos juntamente com as respostas, e estão conectados ao estado atual do mundo salvo em um banco de dados. O estado representa tanto mudanças no ambiente quanto ações realizadas pelo agente. Os resultados de vários modelos de aprendizado de máquina mostram que, enquanto algumas perguntas podem ser respondidas corretamente, outras são mais desafiadoras.

Aprendizado de Máquina e Raciocínio

Modelos de aprendizado de máquina (ML) melhoraram recentemente na sua capacidade de raciocinar sobre situações. Essa melhoria está ligada a melhores estruturas de modelos, conjuntos de dados maiores e tarefas de raciocínio específicas que ajudam as máquinas a aprender. O foco tem sido principalmente em raciocínio baseado em texto, mas essas técnicas também se aplicam a áreas como visão computacional.

Nos últimos dez anos, houve um progresso significativo na criação de Agentes digitais que podem realizar tarefas e influenciar seu entorno. Muitos desses avanços são impulsionados pela disponibilidade de conjuntos de dados, que ajudaram a testar modelos e avaliar seu desempenho. Por exemplo, pesquisas mostraram que adicionar certas regras e diretrizes pode melhorar a forma como os agentes raciocinam durante o treinamento. Outros estudos demonstraram como os modelos podem ser apoiados com supervisão adicional para melhorar seu desempenho.

Recentemente, houve tentativas bem-sucedidas de usar grandes modelos de linguagem como planejadores para esses agentes. Representações simbólicas, que são estruturas que definem conexões entre diferentes pedaços de informação, podem servir como uma forma de integrar percepção, memória e raciocínio para esses agentes.

A Necessidade de Dados Fundamentados

Apesar do crescimento da pesquisa em torno do raciocínio em processamento de linguagem natural (NLP), ainda falta conjuntos de dados baseados em um mundo dinâmico e mutável. Muitos modelos treinados em conjuntos de dados tradicionais de texto têm dificuldade com perguntas que exigem compreensão de espaço físico e relacionamentos, como "quem está ao meu lado?"

Isso pode atrapalhar os modelos de se saírem bem quando confrontados com perguntas simples e espaciais em Contextos do mundo real. Ao fundamentar esses grandes modelos de linguagem em ambientes físicos, podemos conseguir melhorar suas habilidades de raciocínio e ver como podem controlar o comportamento do agente de maneira mais eficaz.

Fonte de Dados para Treinamento de Agentes

Esta pesquisa apresenta uma nova fonte de dados criada para treinar modelos de aprendizado de máquina que operam em ambientes físicos. O foco está em fazer conexões entre percepção, memória e raciocínio. A fonte de dados produz trios, que incluem um contexto, uma pergunta e uma resposta. O contexto reflete o estado dinâmico de um mundo em grade tridimensional que muda com base nas ações do agente e no estado do ambiente.

O ambiente permite a representação de várias situações como uma sequência de imagens, e tem como objetivo responder à pergunta de como criar sistemas de memória eficazes para os agentes. Um formato de banco de dados é usado para representar o contexto, permitindo um processamento mais fácil sem a necessidade de componentes perceptuais complexos. O código para converter esse banco de dados em um formato legível também é compartilhado para uso mais amplo.

A esperança é que essa nova fonte de dados ajude a construir capacidades de raciocínio em agentes incorporados, usando insights dos avanços no raciocínio de modelos de linguagem como apoio.

Configuração Experimental

Nos estudos realizados, vários modelos de base foram criados para processar o banco de dados e lidar com perguntas. Esses incluem modelos de linguagem ajustados que trabalham na versão de texto do banco de dados e modelos estruturados em gráficos que usam um gráfico de conhecimento para processamento. Enquanto algumas perguntas foram respondidas facilmente, outras, especialmente aquelas que exigiam compreensão de relacionamentos espaciais, se mostraram mais difíceis.

Estrutura do Ambiente

O trabalho gira em torno de um mundo em grade tridimensional finito cheio de vários objetos, agentes e ações. Há um agente principal, junto com outros jogadores e NPCs (personagens não jogáveis). Objetos como esferas e cubos são gerados aleatoriamente e posicionados dentro do ambiente. O agente pode executar comandos como construir, mover ou interagir com NPCs, com o mundo avançando em múltiplas etapas.

Nesta representação, cada objeto tem um identificador único e está ligado a propriedades que o descrevem, como localização ou movimento. O contexto é estruturado como um armazenamento de chave-valor centrado em objetos, onde cada item tem vários atributos armazenados de maneira organizada.

Tipos de Consultas

O agente enfrenta várias perguntas projetadas em três categorias principais: consultas de propriedade, consultas temporais e consultas geométricas. Consultas de propriedade envolvem os detalhes dos objetos no estado atual. Consultas temporais observam mudanças ao longo do tempo, enquanto consultas geométricas lidam com o layout e a distância entre itens.

Cada pergunta pode ser formulada em diferentes tipos de cláusulas, permitindo a combinação e exploração de relacionamentos complexos dentro do ambiente. O objetivo é apresentar ao agente consultas que podem ser respondidas com base nas informações contidas no contexto.

Geração de Dados

A nova fonte de dados pode produzir uma quantidade vasta de dados simulados. Cada amostra inclui um contexto, uma pergunta e uma resposta. A complexidade das perguntas pode ser ajustada mudando parâmetros como tamanho da grade, propriedades dos objetos e o número de capturas, o que pode afetar a dificuldade de uma pergunta.

A natureza controlada dos conjuntos de dados sintéticos permite que pesquisadores identifiquem onde os modelos existentes enfrentam dificuldades, fornecendo uma compreensão mais clara de suas limitações.

Conjuntos de Dados Relacionados

Muitos conjuntos de dados de QA existentes foram usados para avaliar o desempenho de modelos de aprendizado de máquina, incluindo testes de compreensão de leitura e raciocínio de múltiplos passos. Enquanto conjuntos de dados do mundo real oferecem benchmarks confiáveis, conjuntos de dados sintéticos podem isolar melhor limitações específicas dos modelos.

Outros exemplos notáveis incluem bAbI, que testa habilidades de raciocínio sobre histórias curtas. Da mesma forma, o CLEVR foca no raciocínio visual com consultas de texto. Nosso trabalho se baseia nessas ideias enquanto se concentra nos aspectos únicos de agentes interagindo com seus ambientes.

Desempenho das Consultas

Em experimentos para avaliar modelos de base, foi usada uma mistura de configurações de conjuntos de dados para mostrar como diferentes modelos responderam perguntas. Os resultados indicaram que, enquanto alguns modelos se saíram bem em tipos específicos de consultas, outros consistentemente apresentaram desempenho inferior em geral.

A introdução de diferentes representações, como texto e contextos estruturados, permite uma exploração mais ampla de como os agentes entendem e reagem ao seu ambiente. Através desta pesquisa, buscamos incentivar mais estudos sobre qual deve ser a representação ideal para o treinamento de agentes.

Conclusão

Este trabalho fornece uma estrutura para gerar dados que combina agentes com seus ambientes circundantes, facilitando uma exploração mais profunda do raciocínio em agentes incorporados. As descobertas mostram o potencial de várias representações de modelos, revelando forças e fraquezas variadas na abordagem de tipos específicos de consultas.

No final das contas, o objetivo é oferecer um recurso adaptável para pesquisadores e praticantes da área. À medida que continuamos a refinar esse gerador de dados, esperamos estimular pesquisas adicionais sobre raciocínio, representação e as capacidades de modelos de aprendizado de máquina em configurações dinâmicas.

Esse avanço permite uma melhor compreensão de como os modelos podem ser treinados para lidar com tarefas complexas e oferece a oportunidade de experimentar diferentes configurações, ambientes e desafios que os pesquisadores modernos enfrentam.

Fonte original

Título: A Data Source for Reasoning Embodied Agents

Resumo: Recent progress in using machine learning models for reasoning tasks has been driven by novel model architectures, large-scale pre-training protocols, and dedicated reasoning datasets for fine-tuning. In this work, to further pursue these advances, we introduce a new data generator for machine reasoning that integrates with an embodied agent. The generated data consists of templated text queries and answers, matched with world-states encoded into a database. The world-states are a result of both world dynamics and the actions of the agent. We show the results of several baseline models on instantiations of train sets. These include pre-trained language models fine-tuned on a text-formatted representation of the database, and graph-structured Transformers operating on a knowledge-graph representation of the database. We find that these models can answer some questions about the world-state, but struggle with others. These results hint at new research directions in designing neural reasoning models and database representations. Code to generate the data will be released at github.com/facebookresearch/neuralmemory

Autores: Jack Lanchantin, Sainbayar Sukhbaatar, Gabriel Synnaeve, Yuxuan Sun, Kavya Srinet, Arthur Szlam

Última atualização: 2023-09-14 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2309.07974

Fonte PDF: https://arxiv.org/pdf/2309.07974

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes