Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Inteligência Artificial# Aprendizagem de máquinas

Aprendizado de Abstração em Contexto: Melhorando o Aprendizado de Máquina com a Perspectiva Humana

Um novo método pra melhorar o aprendizado de máquina usando exemplos subotimais e feedback humano.

― 6 min ler


ICAL: Nova Era daICAL: Nova Era daAprendizagem de Máquinaajuda humana.exemplos que não são perfeitos e comAs máquinas aprendem melhor com
Índice

Nos últimos anos, os avanços em modelos de linguagem e visão mudaram como as máquinas aprendem e tomam decisões. Esses modelos mandam bem em entender instruções humanas e entradas visuais, mas muitas vezes precisam de exemplos de alta qualidade pra aprender de boa. Esse estudo apresenta uma nova abordagem chamada In-Context Abstraction Learning (ICAL), que permite que esses modelos melhorem suas habilidades de aprendizado usando exemplos que não são lá essas coisas e Feedback Humano.

A Necessidade de Aprendizado Eficaz

Modelos de linguagem e visão em larga escala se saem bem em várias tarefas, mas geralmente dependem de exemplos cuidadosamente elaborados pra ter sucesso. Embora esses exemplos de alta qualidade possam guiar o aprendizado, eles costumam ser difíceis de encontrar, especialmente em novos ambientes ou tarefas. Isso levanta uma pergunta importante: será que as máquinas conseguem gerar seus próprios exemplos úteis mesmo quando começam com demonstrações barulhentas e não ideais?

O ICAL busca enfrentar esse desafio permitindo que os modelos criem insights significativos a partir desses exemplos menos que perfeitos, melhorando seu processo de aprendizado.

Entendendo o ICAL

O ICAL é um método que ajuda os modelos a aprender com experiências passadas, mesmo quando essas experiências não são perfeitas. Em vez de usar apenas exemplos de alta qualidade, o ICAL constrói uma memória das experiências a partir de demonstrações não ideais e feedback humano. Essa abordagem permite que os modelos abstraiam informações relevantes, melhorando sua capacidade de responder a novas tarefas.

Como o ICAL Funciona

O ICAL funciona pegando uma sequência de demonstrações barulhentas e quebrando essa informação em insights acionáveis. O processo envolve várias etapas:

  1. Entrada de Demonstração Barulhenta: O modelo recebe uma demonstração que pode não representar as melhores ações ou respostas.

  2. Fase de Abstração: O modelo analisa a demonstração, corrigindo ações ineficazes e identificando insights chave, como relações de tarefas e estados de objetos.

  3. Ciclo de Feedback: Depois de executar as ações em um ambiente de tarefa, um feedback humano é fornecido para refinar a compreensão do modelo e melhorar suas ações.

  4. Criação de Memória: Exemplos bem-sucedidos são armazenados para referência futura, ajudando o modelo a construir uma memória mais rica de ações efetivas e seus contextos.

Aprendendo com o Feedback Humano

Os seres humanos são naturalmente bons em aprender com alguns exemplos. Eles notam o que funciona e o que não funciona, adaptando seu comportamento rapidamente. O ICAL se inspira nessa habilidade humana, usando efetivamente o feedback pra melhorar seu processo de aprendizado. A incorporação de interações humanas permite que o modelo refine suas ações e compreensão continuamente.

O Papel do Feedback

O feedback desempenha um papel crucial em ajudar o modelo a corrigir seus erros e melhorar seu desempenho. Quando observadores humanos fornecem input sobre falhas ou passos perdidos, o modelo consegue ajustar suas ações, criando uma representação mais precisa da tarefa em questão. Essa abordagem com feedback humano garante que o processo de aprendizado seja dinâmico e adaptável.

Treinamento e Avaliação do ICAL

O ICAL foi avaliado em vários padrões pra entender sua eficácia. Esses padrões incluem tarefas de seguir instruções domésticas, interações baseadas na web e previsão de ações em vídeos.

Benchmark TEACh

O benchmark TEACh envolve um conjunto de dados com mais de 3000 instruções baseadas em diálogos para tarefas domésticas. Nesse contexto, os agentes convertem instruções faladas ou escritas em sequências de ações. O ICAL foi testado nesse ambiente, demonstrando melhorias significativas nas taxas de sucesso em relação a métodos anteriores.

VisualWebArena

VisualWebArena é outro campo de testes, composto por 910 episódios de tarefas na web que exigem compreensão visual e raciocínio. Aqui, os agentes precisam navegar por páginas da web e completar tarefas com base em várias instruções. Novamente, o ICAL mostrou uma melhora notável nas taxas de sucesso, superando modelos e métodos existentes.

Previsão de Ação Ego4D

O Ego4D foca em antecipar ações em cenários do dia a dia através da análise de vídeo. O ICAL foi eficaz aqui também, demonstrando sua capacidade de aprender com exemplos limitados enquanto ainda compete de perto com métodos supervisionados.

Vantagens do ICAL

O ICAL oferece várias vantagens em relação aos métodos de aprendizado tradicionais:

  1. Menor Dependência de Exemplos de Alta Qualidade: Diferente de métodos que dependem de exemplos elaborados por especialistas, o ICAL permite que os modelos aprendam de forma eficaz com demonstrações não ideais.

  2. Aprendizado Contínuo: O ICAL apoia refinamento e adaptação constantes, permitindo que os modelos melhorem sua performance ao longo do tempo.

  3. Escalabilidade: O método pode ser aplicado em múltiplas tarefas e ambientes, tornando-o versátil e aplicável em várias áreas.

Desafios e Limitações

Embora o ICAL mostre potencial, existem limitações em sua aplicação. Demonstrações barulhentas ainda podem causar dificuldades se forem muito enganosas. A abordagem depende de um espaço de ação pré-definido, o que pode limitar a flexibilidade na adaptação a ambientes que mudam rapidamente.

Direções Futuras

À medida que a tecnologia avança, mais pesquisas são necessárias para melhorar as capacidades do ICAL. Explorar maneiras de expandir sua adaptabilidade e eficácia será crucial em aplicações do mundo real.

Conclusão

O In-Context Abstraction Learning representa um grande avanço em como as máquinas podem aprender com experiências. Ao permitir que os modelos derive insights de exemplos barulhentos e integrem feedback humano, o ICAL abre novas portas para processos de aprendizado mais eficientes. Essa abordagem não só melhora a performance, mas também reduz a necessidade de exemplos de alta qualidade, tornando o aprendizado de máquina mais acessível e eficaz em uma variedade de tarefas e ambientes.

Fonte original

Título: VLM Agents Generate Their Own Memories: Distilling Experience into Embodied Programs of Thought

Resumo: Large-scale generative language and vision-language models (LLMs and VLMs) excel in few-shot in-context learning for decision making and instruction following. However, they require high-quality exemplar demonstrations in their context window. In this work, we ask: Can LLMs and VLMs generate their own examples from generic, sub-optimal demonstrations? We propose In-Context Abstraction Learning (ICAL), a method that builds a memory of multimodal experience from sub-optimal demonstrations and human feedback. Given a task demonstration that may contain inefficiencies or mistakes, a VLM abstracts the trajectory into a generalized program of thoughts by correcting inefficient actions and annotating cognitive abstractions: causal relationships, object state changes, temporal subgoals, and task-relevant visual elements. These programs of thought are iteratively improved through human feedback while the agent executes the trajectory in a similar environment. The resulting examples significantly improve decision-making in retrieval-augmented LLM and VLM agents. Moreover, as the agent's library of examples grows, it becomes more efficient, relying less on human feedback and requiring fewer environment interactions per demonstration. Our ICAL agent surpasses the SOTA in dialogue-based instruction following in TEACh, multimodal web agents in VisualWebArena, and action anticipation in Ego4D. In TEACh, we achieve a 12.6% improvement in goal-condition success. In VisualWebArena, our task success rate improves over few-shot GPT4V. In Ego4D action forecasting, we improve over few-shot GPT-4V and remain competitive with supervised models. We show finetuning our retrieval-augmented in-context agent yields additional improvements. Our approach significantly reduces reliance on manual prompt engineering and consistently outperforms in-context learning from action plans that lack such programs of thought.

Autores: Gabriel Sarch, Lawrence Jang, Michael J. Tarr, William W. Cohen, Kenneth Marino, Katerina Fragkiadaki

Última atualização: 2024-11-22 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2406.14596

Fonte PDF: https://arxiv.org/pdf/2406.14596

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes