Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Apresentando o EgoObjects: Um Novo Conjunto de Dados para Reconhecimento de Objetos

EgoObjects oferece um conjunto de dados super completo pra entender objetos do ponto de vista de quem tá vendo.

― 8 min ler


EgoObjects: Um NovoEgoObjects: Um NovoConjunto de DadosReveladopessoa.reconhecimento de objetos em primeiraEgoObjects melhora a pesquisa de
Índice

Entender objetos em vídeos gravados de uma visão em primeira pessoa é super importante pra várias aplicações, como realidade aumentada e robótica. Mas a maioria dos conjuntos de dados que já existem foca em imagens de uma visão em terceira pessoa, o que limita a utilidade deles pra entender objetos em situações reais. Pra resolver isso, foi criado um novo conjunto de dados chamado EgoObjects. Esse conjunto inclui um monte de vídeos gravados de uma perspectiva em primeira pessoa, mostrando vários objetos em diferentes ambientes.

O que é EgoObjects?

EgoObjects é um conjunto de dados em grande escala que tem mais de 9.000 vídeos coletados de mais de 250 participantes em mais de 50 países. Esses vídeos têm mais de 650.000 anotações de objetos em 368 categorias. Diferente de conjuntos de dados anteriores, que focam só em identificar Categorias de Objetos, o EgoObjects vai além, fornecendo identificadores únicos pra objetos individuais. Isso significa que cada objeto pode ser reconhecido não só pelo seu tipo (como "garrafa" ou "copo"), mas também como uma instância específica (tipo "meu copo azul").

O conjunto captura os mesmos objetos em várias situações. Por exemplo, um objeto pode ser gravado em diferentes iluminações, a várias distâncias e com diferentes fundos ou movimentos de câmera. Essa diversidade facilita o treinamento de modelos que podem reconhecer objetos com mais precisão em condições do mundo real.

Por que EgoObjects é importante

Estudar como identificamos e entendemos objetos ao nosso redor tem se tornado cada vez mais importante. Por exemplo, em aplicações de realidade aumentada, entender como colocar objetos virtuais corretamente em relação a objetos reais é crucial. Da mesma forma, na robótica, os dispositivos precisam reconhecer e interagir com vários objetos ao seu redor.

Os conjuntos de dados existentes têm limitações, principalmente porque não oferecem uma ampla gama de situações de objetos ou não distinguem entre objetos individuais. O EgoObjects preenche essa lacuna, fornecendo um conjunto de dados mais diversificado e abrangente, tornando-se um recurso poderoso para pesquisadores que trabalham em reconhecimento de objetos em visões de primeira pessoa.

Comparando EgoObjects com outros conjuntos de dados

Muitos conjuntos de dados conhecidos, como ImageNet e COCO, têm sido usados para tarefas de reconhecimento de objetos. No entanto, esses conjuntos apresentam principalmente imagens tiradas de uma perspectiva em terceira pessoa. Isso significa que muitas vezes mostram objetos individuais em ambientes controlados, em vez das condições variadas que encontramos no dia a dia. Por exemplo, eles podem mostrar só um copo em uma mesa, sem considerar como ele aparece em uma cozinha cheia de coisas ou a diferentes distâncias.

Em contraste, o EgoObjects permite que os pesquisadores estudem objetos como eles seriam vistos em cenários da vida real. Ao capturar vídeos de objetos em seus ambientes naturais, o conjunto fornece informações ricas que ajudam a entender como os objetos se comportam em diferentes ambientes.

Processo de Coleta de Dados

Os dados do EgoObjects foram coletados usando vários dispositivos vestíveis. Isso inclui óculos inteligentes e celulares equipados com lentes ultra-grandes. Os participantes foram instruídos a gravar vídeos de certos objetos de categorias pré-definidas. Cada objeto deve ser único dentro de sua localização, e os vídeos foram feitos sob condições específicas, como iluminação, complexidade do fundo, movimento da câmera e distância do objeto.

Por exemplo, os participantes capturaram vídeos de objetos tanto em fundos simples quanto movimentados. Um fundo simples pode ter só alguns objetos próximos, enquanto um fundo movimentado teria muitos objetos. O objetivo era garantir que o objeto principal pudesse ser visto claramente, independentemente das complexidades ao redor.

A coleta de dados durou 14 meses e envolveu um processo contínuo de coleta de vídeos enquanto simultaneamente anotava os dados. Isso significava que, à medida que mais vídeos eram coletados, eles também eram avaliados e rotulados pra acompanhar o crescimento do conjunto de dados.

Etapas da Anotação de Dados

As anotações no EgoObjects são feitas em três etapas pra garantir precisão e detalhe:

  1. Descoberta de Categorias: Os anotadores identificam categorias de objetos a partir de uma lista de itens domésticos comuns. Eles tentam encontrar o maior número possível de categorias relevantes pra cada quadro do vídeo.

  2. Rotulagem Exaustiva de Instâncias: Os anotadores então rotulam meticulosamente todas as instâncias de objetos nos quadros do vídeo, melhorando as anotações de caixa delimitadora com IDs únicos pra cada instância de objeto. Isso permite que o conjunto de dados distinga não só entre tipos, mas também entre objetos individuais.

  3. Verificação de Categorias Negativas: Por último, os anotadores verificam categorias que não aparecem na imagem. Isso garante que o conjunto de dados esteja bem definido e que as categorias negativas sejam corretamente identificadas.

Usando essa abordagem de múltiplas etapas, o EgoObjects garante que as anotações sejam tanto abrangentes quanto precisas, o que é crítico pra treinar modelos eficazes de reconhecimento de objetos.

Tarefas de Referência no EgoObjects

Pra estimular a pesquisa usando o EgoObjects, várias tarefas de referência foram introduzidas. Essas tarefas permitem que os pesquisadores avaliem diferentes abordagens para entender objetos:

Detecção de Objetos em Nível de Instância

Essa tarefa foca em identificar instâncias específicas de objetos em vídeos. É essencial porque conseguir reconhecer um objeto específico, tipo uma caneca de café pessoal, é crucial pra aplicações no dia a dia. Os pesquisadores podem testar diferentes modelos pra ver como eles conseguem identificar tanto instâncias de objetos já vistas quanto novas.

Tarefas de Aprendizado Contínuo

EgoObjects também suporta tarefas de aprendizado contínuo, que permitem que os modelos aprendam e se adaptem à medida que novos dados chegam. Isso é particularmente importante em aplicações do mundo real, onde os tipos e números de objetos podem mudar continuamente. Testando modelos nesse contexto, os pesquisadores podem ver como eles lidam com novas informações sem esquecer o conhecimento anterior.

Detecção de Objetos em Nível de Categoria

Por último, o EgoObjects também inclui uma tarefa pra detecção de objetos em nível de categoria tradicional. É aqui que os modelos são avaliados pela sua capacidade de classificar objetos em categorias amplas, sem focar em instâncias individuais. Essa tarefa é útil pra entender como os modelos se saem quando o foco está na generalização, em vez da identificação específica.

Resumo das Contribuições

O EgoObjects faz várias contribuições significativas pro campo do entendimento de objetos:

  1. Ele fornece um conjunto de dados em larga escala focado em vídeos egocêntricos, capturando objetos diversos em várias condições.
  2. Um processo de anotação federada em múltiplas etapas permite uma rotulagem detalhada de objetos e interações no conjunto de dados.
  3. Tarefas de referência permitem que os pesquisadores avaliem seus métodos e comparem resultados no conjunto de dados de forma eficaz.

Desafios no EgoObjects

Apesar de suas forças, o EgoObjects tem seus desafios. A complexidade de cenários do mundo real pode tornar a detecção de objetos difícil. Por exemplo, capturar objetos em fundos bagunçados ou com diferentes condições de iluminação pode levar a vários erros na detecção. Além disso, entender como os modelos podem generalizar pra categorias desconhecidas continua sendo um desafio.

Direções Futuras Potenciais

A introdução do EgoObjects abre várias oportunidades pra futuras pesquisas. Por exemplo, os métodos desenvolvidos usando esse conjunto de dados poderiam ser aplicados em áreas além da robótica e realidade aumentada, como monitoramento de segurança, tecnologias de vida assistida e jogos interativos.

Além disso, melhorar os modelos pra melhor precisão em situações complexas, como detectar objetos em baixa luminosidade ou quando parcialmente obscuros, continua sendo uma área significativa pra desenvolvimento. Melhorias na forma como os modelos aprendem e se adaptam a novas informações provavelmente serão de grande interesse também.

Conclusão

O EgoObjects se destaca como um grande avanço no estudo do entendimento de objetos a partir de uma perspectiva em primeira pessoa. Sua coleta de dados abrangente e anotações detalhadas fazem dele um recurso vital pra pesquisadores que buscam expandir os limites do que é possível em detecção e reconhecimento de objetos.

À medida que o campo continua a crescer, as técnicas e insights obtidos a partir do EgoObjects provavelmente levarão a sistemas mais inteligentes e capazes de interagir com o mundo de formas significativas. Ao abordar os desafios atuais e explorar novas fronteiras, os pesquisadores podem aprimorar ainda mais nosso entendimento das interações entre objetos em nossas vidas diárias.

Fonte original

Título: EgoObjects: A Large-Scale Egocentric Dataset for Fine-Grained Object Understanding

Resumo: Object understanding in egocentric visual data is arguably a fundamental research topic in egocentric vision. However, existing object datasets are either non-egocentric or have limitations in object categories, visual content, and annotation granularities. In this work, we introduce EgoObjects, a large-scale egocentric dataset for fine-grained object understanding. Its Pilot version contains over 9K videos collected by 250 participants from 50+ countries using 4 wearable devices, and over 650K object annotations from 368 object categories. Unlike prior datasets containing only object category labels, EgoObjects also annotates each object with an instance-level identifier, and includes over 14K unique object instances. EgoObjects was designed to capture the same object under diverse background complexities, surrounding objects, distance, lighting and camera motion. In parallel to the data collection, we conducted data annotation by developing a multi-stage federated annotation process to accommodate the growing nature of the dataset. To bootstrap the research on EgoObjects, we present a suite of 4 benchmark tasks around the egocentric object understanding, including a novel instance level- and the classical category level object detection. Moreover, we also introduce 2 novel continual learning object detection tasks. The dataset and API are available at https://github.com/facebookresearch/EgoObjects.

Autores: Chenchen Zhu, Fanyi Xiao, Andres Alvarado, Yasmine Babaei, Jiabo Hu, Hichem El-Mohri, Sean Chang Culatana, Roshan Sumbaly, Zhicheng Yan

Última atualização: 2023-09-15 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2309.08816

Fonte PDF: https://arxiv.org/pdf/2309.08816

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes