Apresentando o Conjunto de Dados 3DGrocery100 para Melhor Reconhecimento de Supermercados
Um novo conjunto de dados tem como objetivo melhorar o reconhecimento de itens de supermercado através de dados 3D detalhados.
― 8 min ler
Índice
- Visão Geral do Conjunto de Dados
- Importância dos Dados 3D
- A Necessidade do 3DGrocery100
- Processo de Coleta de Dados
- Hierarquia de Dados
- Anotação de Dados
- Processamento e Limpeza de Dados
- Remoção de Outliers
- O Valor do 3DGrocery100
- Benchmarking do Conjunto de Dados
- Modelos de Classificação Usados
- Aprendizado Few-Shot e Aprendizado Incremental de Classes
- Aprendizado Few-Shot
- Aprendizado Incremental de Classes
- Resultados e Descobertas
- Resumo de Desempenho
- Limitações e Direções Futuras
- Trabalho Futuro
- Conclusão
- Fonte original
- Ligações de referência
Reconhecer itens de supermercado com precisão é super importante pra coisas como máquinas de autoatendimento, robôs nas lojas e ajudar pessoas com deficiência visual. A maioria dos dados de supermercado atuais é composta de imagens 2D, que limitam a capacidade dos modelos de aprender a reconhecer diferentes produtos porque não capturam a forma completa dos itens. Recentemente, sensores 3D avançados como LiDAR e TrueDepth foram adicionados aos smartphones, tornando possível coletar dados 3D mais detalhados. Mas ainda tem uma lacuna significativa com poucos conjuntos de dados 3D em larga escala focados em itens de supermercado.
Pra resolver isso, a gente apresenta um novo conjunto de dados grande chamado 3DGrocery100. Esse conjunto inclui 100 tipos diferentes de itens de supermercado com um total de 87.898 nuvens de pontos 3D criadas a partir de 10.755 Imagens RGB-D. A gente também testou esse conjunto com seis modelos avançados de classificação de nuvens de pontos 3D. O conjunto estabelece uma base pra mais pesquisas em reconhecimento de supermercado.
Visão Geral do Conjunto de Dados
O 3DGrocery100 é composto de 10.755 imagens RGB-D e 87.898 nuvens de pontos em 100 categorias. Os itens são agrupados em três categorias principais: Frutas (10 classes de maçã e 24 classes de não-maçã), Vegetais (28) e Embalagens (38). O conjunto foi coletado em condições reais de supermercado, oferecendo uma representação diversificada de itens de supermercado e suas arrumações.
Alguns itens de supermercado, especialmente produtos frescos, podem ser difíceis de reconhecer por causa de questões de preços, colocação aleatória e orientações variadas. Esses problemas mostram a necessidade de melhores métodos de Coleta de Dados, especialmente aqueles que permitem capturar recursos 3D de forma eficaz.
Importância dos Dados 3D
A visão computacional 3D tá se tornando cada vez mais importante com aplicações em áreas como saúde e realidade aumentada. Em supermercados, identificar e localizar itens com precisão pode melhorar a experiência de compra e ajudar na gestão de estoque. Conjuntos de dados 2D tradicionais não fornecem as informações de profundidade necessárias pra reconhecer e classificar itens de supermercado completamente.
Os dados 3D acrescentam valor porque capturam a forma e a estrutura dos itens. Esses dados são essenciais pra modelos de aprendizado profundo que precisam aprender os detalhes finos dos objetos de supermercado, o que pode afetar significativamente o desempenho no reconhecimento.
A Necessidade do 3DGrocery100
Apesar dos avanços recentes na coleta de dados 3D, ainda há uma escassez de conjuntos de dados 3D de supermercado. Os conjuntos existentes muitas vezes não têm variedade suficiente e categorias detalhadas. Pra criar um conjunto de dados prático, a gente usou celulares equipados com sensores 3D avançados pra coletar imagens de uma forma simples e eficiente. Essa abordagem permite converter imagens RGB e de profundidade de visão única em nuvens de pontos 3D utilizáveis.
Nosso conjunto de dados visa preencher a lacuna no reconhecimento 3D de supermercado, oferecendo uma coleção bem organizada de nuvens de pontos que representam vários itens de supermercado em detalhes.
Processo de Coleta de Dados
Nossa coleta de dados aconteceu ao longo de quatro meses em 18 supermercados diferentes. O processo envolveu tirar imagens RGB-D de itens em várias configurações de loja. A gente usou um app iOS que funciona com câmeras modernas de celulares pra capturar tanto imagens RGB quanto dados de profundidade. Esse app permitiu uma coleta de imagem eficaz, mesmo quando os itens de supermercado estavam em iluminação ou posicionamento não ideais.
Os recursos de LiDAR e câmera estéreo do iPhone ajudaram a alcançar um mapeamento de profundidade melhor e qualidade de nuvem de pontos, resultando em representações mais precisas dos itens de supermercado.
Hierarquia de Dados
Uma vez que os dados foram coletados, eles foram organizados em categorias estruturadas. O conjunto classifica itens em Frutas, Vegetais e Embalagens, com subcategorias adicionais pra melhor granularidade. Cada classe contém um certo número de imagens e amostras de nuvem de pontos correspondentes, permitindo análises variadas durante os experimentos.
Anotação de Dados
Anotar as imagens coletadas foi uma parte importante da criação do conjunto de dados. A gente marcou os limites dos itens de supermercado dentro das imagens RGB 2D pra garantir a geração precisa da Nuvem de Pontos 3D. Atenção cuidadosa foi dada pra selecionar com precisão os limites dos objetos pra evitar qualquer ruído extra nas nuvens de pontos que poderia prejudicar a análise.
Processamento e Limpeza de Dados
Processar imagens RGB-D em nuvens de pontos envolve alguns desafios. Muitas vezes, outliers e ruídos podem ser introduzidos durante o processo de conversão. Pra resolver esses problemas, aplicamos técnicas específicas pra limpar os dados, incluindo remoção de outliers e métodos de desnoização. Isso garante um conjunto de dados de maior qualidade que reflete com precisão os itens de supermercado.
Remoção de Outliers
Usando o PointCleanNet, conseguimos identificar e remover pontos ruidosos do conjunto de dados. Focando em manter nuvens de pontos de maior qualidade, garantimos que o conjunto resultante possa ser usado de forma confiável pra mais pesquisas e treinamento de modelos.
O Valor do 3DGrocery100
A introdução do 3DGrocery100 apresenta uma oportunidade pra avanços significativos em sistemas de reconhecimento de supermercado. Ao fornecer um conjunto de dados grande e variado, nosso objetivo é apoiar o desenvolvimento de métodos que possam classificar e reconhecer itens de supermercado de forma mais eficaz.
O conjunto não só é extenso em tamanho, mas também cobre diferentes tipos de itens de supermercado em ambientes do mundo real, permitindo que pesquisadores construam e aprimorem modelos que podem ser revolucionários pra tarefas como checkouts automatizados ou assistência pra clientes com deficiência visual.
Benchmarking do Conjunto de Dados
Pra validar a eficácia do nosso conjunto de dados, fizemos benchmark com vários modelos conhecidos pelo desempenho em tarefas de classificação de nuvens de pontos. Esse processo envolveu avaliar como bem esses modelos conseguiam classificar os itens de supermercado no conjunto, fornecendo insights sobre suas forças e fraquezas.
Modelos de Classificação Usados
A gente testou seis modelos de ponta projetados pra classificação de nuvens de pontos 3D. Cada modelo foi avaliado pra ver como lidavam com os desafios únicos que o nosso conjunto de dados apresentava. Os resultados desses benchmarks oferecem uma visão melhor sobre as capacidades e limitações atuais da tecnologia existente em reconhecimento de supermercado.
Aprendizado Few-Shot e Aprendizado Incremental de Classes
Aprendizado few-shot e aprendizado incremental de classes são áreas essenciais de estudo em aprendizado de máquina, especialmente ao lidar com novos conjuntos de dados ou em evolução. Nosso conjunto de dados permite experimentação nessas áreas, ajudando a explorar como bem os modelos podem generalizar a partir de exemplos limitados ou se adaptar a novas classes de itens ao longo do tempo.
Aprendizado Few-Shot
Criamos um subconjunto do nosso conjunto de dados chamado 3DGrocery63, mesclando algumas classes de formas semelhantes. Esse subconjunto serve como uma base forte pra avaliações de aprendizado few-shot, permitindo que pesquisadores testem como bem os modelos podem se adaptar com dados de treinamento limitados.
Aprendizado Incremental de Classes
Nosso conjunto de dados também é adequado pra aprendizado incremental de classes, permitindo explorar como bem os modelos mantêm seu desempenho à medida que novas classes são introduzidas. Isso é particularmente útil pra aplicações de reconhecimento de supermercado, onde novos produtos são frequentemente adicionados ou alterados nas lojas.
Resultados e Descobertas
Os resultados dos nossos benchmarks e avaliações fornecem insights valiosos sobre o desempenho de diferentes modelos usando nosso conjunto de dados. Observaram que, enquanto alguns modelos se destacaram em tarefas específicas, outros tiveram dificuldade em se adaptar às complexidades do reconhecimento de itens de supermercado.
Resumo de Desempenho
O benchmarking destacou a importância das características de cor e geométricas nas tarefas de classificação. Os modelos apresentaram desempenho significativamente melhor ao usar dados de cor junto com informações geométricas, mostrando quão valiosa uma representação 3D completa pode ser pra um reconhecimento preciso de supermercado.
Limitações e Direções Futuras
Embora o 3DGrocery100 represente um passo importante na área de reconhecimento de supermercado, ainda há desafios a serem abordados. Questões sobre qualidade dos dados, processos de anotação e conversão de representação 3D indicam áreas pra melhoria em iterações futuras.
Trabalho Futuro
Trabalhos futuros potenciais incluem a exploração de técnicas de aprendizado não supervisionado pra agilizar a anotação de dados e melhorar a qualidade geral do conjunto de dados. Além disso, benchmarks mais extensos podem revelar mais insights sobre as capacidades de vários modelos em cenários de supermercado do mundo real.
Conclusão
Em conclusão, o conjunto de dados 3DGrocery100 tem o potencial de melhorar significativamente a pesquisa e o desenvolvimento em sistemas de reconhecimento de supermercado. Ao combinar uma ampla gama de categorias de supermercado com métodos avançados de coleta de dados 3D, esse conjunto serve como um recurso crucial pra aprimorar modelos de aprendizado de máquina usados nesse campo.
A exploração contínua e o avanço no reconhecimento de supermercado 3D abrirão o caminho pra soluções inovadoras que podem transformar a experiência de compra para os consumidores e agilizar as operações para os varejistas.
Título: A Benchmark Grocery Dataset of Realworld Point Clouds From Single View
Resumo: Fine-grained grocery object recognition is an important computer vision problem with broad applications in automatic checkout, in-store robotic navigation, and assistive technologies for the visually impaired. Existing datasets on groceries are mainly 2D images. Models trained on these datasets are limited to learning features from the regular 2D grids. While portable 3D sensors such as Kinect were commonly available for mobile phones, sensors such as LiDAR and TrueDepth, have recently been integrated into mobile phones. Despite the availability of mobile 3D sensors, there are currently no dedicated real-world large-scale benchmark 3D datasets for grocery. In addition, existing 3D datasets lack fine-grained grocery categories and have limited training samples. Furthermore, collecting data by going around the object versus the traditional photo capture makes data collection cumbersome. Thus, we introduce a large-scale grocery dataset called 3DGrocery100. It constitutes 100 classes, with a total of 87,898 3D point clouds created from 10,755 RGB-D single-view images. We benchmark our dataset on six recent state-of-the-art 3D point cloud classification models. Additionally, we also benchmark the dataset on few-shot and continual learning point cloud classification tasks. Project Page: https://bigdatavision.org/3DGrocery100/.
Autores: Shivanand Venkanna Sheshappanavar, Tejas Anvekar, Shivanand Kundargi, Yufan Wang, Chandra Kambhamettu
Última atualização: 2024-04-07 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2402.07819
Fonte PDF: https://arxiv.org/pdf/2402.07819
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.