Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Desenvolvendo Assistentes de IA Através de Dados de Interação Humana

Um conjunto de dados registra interações humanas pra melhorar assistentes de IA em tarefas do dia a dia.

― 8 min ler


Assistentes de IA AtravésAssistentes de IA Atravésde Dados Humanoscriar ajudantes de IA melhores.Aproveitando as interações humanas pra
Índice

Criar um assistente de IA que funcione bem com as pessoas no dia a dia é um objetivo que muitos pesquisadores da área de inteligência artificial (IA) têm perseguido. Esse projeto visa desenvolver agentes de IA inteligentes que possam ajudar as pessoas a concluir tarefas em ambientes reais. Para ajudar nesse esforço, criamos um grande conjunto de dados focado em como os humanos interagem uns com os outros enquanto realizam tarefas. Esse conjunto de dados captura as pessoas enquanto trabalham juntas para finalizar tarefas físicas, usando um headset de realidade mista que coleta vários tipos de dados.

Visão Geral do Conjunto de Dados

O conjunto de dados recém-criado registra interações entre duas pessoas enquanto realizam tarefas físicas juntas. Uma pessoa realiza a tarefa, usando um headset de realidade mista que coleta uma variedade de dados, enquanto a outra pessoa atua como um Instrutor que dá orientações verbais em tempo real. O conjunto inclui sete tipos de fluxos de dados, como vídeo, áudio e informações de profundidade, para proporcionar uma visão abrangente das interações que ocorrem.

O conjunto de dados é extenso, cobrindo 166 horas e envolvendo 350 pares únicos de instrutores e executores de tarefas. As tarefas incluem uma variedade de trabalhos de manipulação física, tornando o conjunto de dados diversificado e valioso para treinar assistentes de IA.

Ambiente de Interação

Nesse conjunto de dados, o executor de tarefas completa diferentes atribuições enquanto usa um dispositivo de realidade aumentada (RA). O instrutor supervisiona de um local separado, assistindo às ações do executor de tarefas por meio de um feed de vídeo em tempo real em seu laptop. Eles fornecem assistência e direções conforme necessário.

O conjunto de dados registra vários tipos de dados simultaneamente, o que permite uma análise detalhada do comportamento humano durante essas interações. Por exemplo, captura ações realizadas, instruções faladas e respostas a Erros. Essas informações podem ser extremamente úteis para entender como melhorar os assistentes de IA para que eles possam dar uma ajuda mais eficaz aos usuários.

Objetivos e Metas

O principal objetivo desse conjunto de dados é reunir insights sobre como os assistentes humanos ajudam uns aos outros ao completar tarefas. Estudando as interações registradas, os pesquisadores podem aprender como os instrutores identificam erros e oferecem orientações. Esse entendimento pode ajudar a desenvolver sistemas de IA que imitam esses comportamentos.

Além disso, o conjunto de dados inclui benchmarks para diferentes tarefas, como detectar erros, prever o tipo de intervenção necessária e prever movimentos das mãos. Esses benchmarks podem ajudar no treinamento de modelos de IA que são capazes de fornecer assistência em tempo real na conclusão de tarefas físicas.

Processo de Coleta de Dados

Para criar esse conjunto de dados, recrutamos 222 participantes para formar pares de instrutores e executores. Antes de começarem, os instrutores foram treinados e receberam informações detalhadas sobre as tarefas, enquanto os executores receberam apenas uma compreensão básica de suas atribuições.

Os participantes realizaram uma variedade de tarefas usando diferentes tipos de objetos do dia a dia. As tarefas incluíram atividades como configurar eletrônicos e montar móveis. O conjunto de dados também inclui uma ampla gama de participantes, o que ajuda a estudar como diferentes origens e níveis de habilidade podem influenciar as interações.

Ferramentas de Captura de Dados

A captura de dados usou uma plataforma especializada que permitiu a coleta de dados enquanto minimizava interrupções. O headset de RA capturou informações visuais e auditivas e as transmitiu para um servidor, onde foram armazenadas para análise. Essa configuração possibilitou longas sessões de coleta de dados sem esgotar o espaço de armazenamento no headset.

A Importância dos Dados Multimodais

Esse conjunto de dados é único porque captura muitos tipos de dados simultaneamente, proporcionando uma compreensão mais rica das interações. As sete modalidades incluem vídeo, áudio, informações de profundidade, posição da cabeça, olhar, movimentos das mãos e medições inerciais. Cada tipo de dado fornece diferentes insights sobre o desempenho da tarefa e pode ser valioso para treinar sistemas de IA.

Usando múltiplos tipos de dados, os pesquisadores podem entender melhor o comportamento humano. Por exemplo, analisar os movimentos das mãos junto com as instruções verbais pode mostrar como esses elementos funcionam juntos para ajudar alguém a completar uma tarefa.

Observações do Conjunto de Dados

Muitos padrões interessantes surgiram da análise dos dados. Por exemplo, os instrutores tendiam a intervir imediatamente quando viam um erro crítico, sugerindo que eram proativos em ajudar o executor de tarefas. Isso indica a necessidade de sistemas de IA serem igualmente responsivos.

Outra observação foi que os instrutores frequentemente davam instruções curtas e claras com base no ambiente atual do executor de tarefas. As instruções geralmente incluíam dicas espaciais específicas para indicar onde mover ou o que fazer a seguir. Essa abordagem fundamentada nas instruções pode fornecer insights sobre como assistentes de IA podem guiar efetivamente os usuários em tarefas do mundo real.

Tarefas de Benchmark

Para avaliar quão bem os modelos de IA podem aprender com esse conjunto de dados, várias tarefas de benchmark foram definidas. Essas tarefas incluem:

  1. Detecção de Erros: Identificar se as ações tomadas pelo executor de tarefas estão corretas ou envolvem erro.
  2. Previsão do Tipo de Intervenção: Prever que tipo de assistência pode ser necessária com base nas ações do executor de tarefas.
  3. Previsão de Posição das Mãos em 3D: Prever as futuras posições das mãos do executor de tarefas com base em seus movimentos atuais.

Esses benchmarks visam avaliar as capacidades dos modelos de IA e orientar o desenvolvimento futuro, fornecendo métricas claras de desempenho.

Erros e Intervenções

O conjunto de dados revelou uma ligação clara entre os erros cometidos durante as tarefas e o momento das intervenções dos instrutores. Quando os instrutores notavam erros significativos, muitas vezes intervinham rapidamente para corrigi-los. No entanto, para erros menos críticos, às vezes eles esperavam para ver se o executor de tarefas se corrigia sozinho.

Essa observação sugere que um assistente de IA eficaz deve ser capaz de reconhecer a gravidade dos erros e responder adequadamente. Também destaca a importância de entender o comportamento humano ao projetar sistemas de IA que possam interagir efetivamente com as pessoas.

O Papel da Orientação Espacial

Outra descoberta importante é o quão eficaz é a orientação espacial nas intervenções dos instrutores. Os instrutores frequentemente usavam termos específicos para descrever as localizações de objetos ou ações, o que ajudava o executor de tarefas a entender o que fazer a seguir. Esse tipo de instrução fundamentada é crucial para garantir clareza e eficácia na comunicação.

Incorporar abordagens de orientação espacial semelhantes em sistemas de IA pode melhorar sua capacidade de ajudar os usuários em ambientes do mundo real.

Direções Futuras

Os insights extraídos desse conjunto de dados criam várias oportunidades para futuras pesquisas. Esforços futuros poderiam se concentrar em melhorar como os modelos de IA aplicam os comportamentos observados para construir assistentes interativos mais eficazes.

Áreas potenciais para exploração incluem:

  • Desenvolver modelos que possam prever com precisão os erros e intervir apropriadamente.
  • Aumentar a compreensão de como os instrutores humanos ajustam suas orientações com base no nível de habilidade do executor de tarefas.
  • Explorar a integração de entradas de dados multimodais mais complexas para fornecer um contexto mais rico para os modelos de IA.

Ao seguir essas direções, os pesquisadores podem contribuir para a construção de sistemas de IA que entendam e ajudem melhor os humanos durante tarefas físicas.

Conclusão

Em resumo, o conjunto de dados criado é um recurso valioso para entender as interações humanas durante a conclusão de tarefas. Ele apresenta insights sobre como os instrutores apoiam os executores e destaca a importância da detecção de erros, intervenções oportunas e orientação espacial. À medida que os pesquisadores se aprofundam nessas informações, poderão desenvolver assistentes de IA mais eficazes que podem apoiar as pessoas em várias tarefas no dia a dia. Os desafios impostos pelas interações do mundo real continuam a abrir caminhos para crescimento e pesquisa na área de IA.

Fonte original

Título: HoloAssist: an Egocentric Human Interaction Dataset for Interactive AI Assistants in the Real World

Resumo: Building an interactive AI assistant that can perceive, reason, and collaborate with humans in the real world has been a long-standing pursuit in the AI community. This work is part of a broader research effort to develop intelligent agents that can interactively guide humans through performing tasks in the physical world. As a first step in this direction, we introduce HoloAssist, a large-scale egocentric human interaction dataset, where two people collaboratively complete physical manipulation tasks. The task performer executes the task while wearing a mixed-reality headset that captures seven synchronized data streams. The task instructor watches the performer's egocentric video in real time and guides them verbally. By augmenting the data with action and conversational annotations and observing the rich behaviors of various participants, we present key insights into how human assistants correct mistakes, intervene in the task completion procedure, and ground their instructions to the environment. HoloAssist spans 166 hours of data captured by 350 unique instructor-performer pairs. Furthermore, we construct and present benchmarks on mistake detection, intervention type prediction, and hand forecasting, along with detailed analysis. We expect HoloAssist will provide an important resource for building AI assistants that can fluidly collaborate with humans in the real world. Data can be downloaded at https://holoassist.github.io/.

Autores: Xin Wang, Taein Kwon, Mahdi Rad, Bowen Pan, Ishani Chakraborty, Sean Andrist, Dan Bohus, Ashley Feniello, Bugra Tekin, Felipe Vieira Frujeri, Neel Joshi, Marc Pollefeys

Última atualização: 2023-09-29 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2309.17024

Fonte PDF: https://arxiv.org/pdf/2309.17024

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes