Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Inteligência Artificial

Apresentando o Conjunto de Dados Vamos às Compras

Um novo conjunto de dados para melhorar o reconhecimento de imagens e textos em e-commerce.

― 8 min ler


Conjunto de Dados LGSConjunto de Dados LGSpara Inovação emE-commercetreinamento de dados de e-commerce.Uma ferramenta poderosa para
Índice

Sites de compras têm um monte de imagens e descrições sobre produtos. Essas informações podem ajudar máquinas a aprender a reconhecer objetos e entender suas descrições. Mas, criar conjuntos de dados que combinam imagens e texto dá muito trabalho e leva tempo. Isso limita a atuação de cientistas e desenvolvedores.

A gente propõe uma solução pra facilitar e agilizar essa coleta de dados. Métodos anteriores de coleta de informações de redes sociais e texto HTML muitas vezes resultaram em dados bagunçados ou confusos. Como alternativa melhor, criamos o conjunto de dados Let's Go Shopping (LGS), que inclui 15 milhões de pares de imagem e descrição de vários sites de e-commerce. Esses pares são mais limpos e informativos.

Características do Conjunto de Dados LGS

As imagens no conjunto de dados LGS focam mais nos itens que estão sendo vendidos do que no que tá ao redor. Em conjuntos de dados tradicionais, as imagens podem ter fundos complexos, o que dificulta a identificação do objeto principal pelas máquinas. No LGS, no entanto, os fundos são mais simples, facilitando o aprendizado das máquinas.

As legendas no LGS são super descritivas e fornecem informações específicas sobre os produtos. Isso contrasta com o texto alternativo, que muitas vezes é vago ou muito amplo. Por exemplo, uma imagem de um par de sapatos teria uma legenda explicando a marca, cor e estilo do sapato, em vez de só "sapatos".

A Necessidade de Novos Conjuntos de Dados

Na área de visão computacional e processamento de linguagem, conjuntos de dados grandes são essenciais. Mas muitos conjuntos de dados existentes não estão disponíveis publicamente. Isso dificulta a participação de novos pesquisadores nessa área.

O conjunto de dados LGS resolve esse problema, oferecendo dados de alta qualidade e facilmente acessíveis. Assim, os pesquisadores podem treinar seus modelos com informações limpas e descritivas especificamente focadas no e-commerce.

Coletando os Dados

Pra criar o conjunto de dados LGS, primeiro identificamos vários sites de e-commerce que vendem uma ampla gama de produtos. Depois, coletamos imagens e descrições desses sites usando ferramentas automatizadas. Nossa abordagem garantiu que os dados que coletamos fossem representativos do cenário de e-commerce e de alta qualidade.

Nossos métodos incluíram filtrar imagens e descrições que não atendiam aos nossos padrões de qualidade, como casos com títulos problemáticos ou imagens inválidas. Fazendo isso, garantimos que o conjunto de dados seja confiável para os pesquisadores usarem em seu trabalho.

Destaques das Imagens LGS

Ao contrário de outros conjuntos de dados onde as imagens podem ter muitos objetos em uma cena, as imagens LGS geralmente apresentam um item principal contra um fundo simples. Isso permite um foco mais claro no produto, facilitando o aprendizado dos modelos.

As imagens não são só limpas; elas também têm um estilo consistente que ajuda os modelos a se saírem bem. A uniformidade nas categorias de produtos (como roupas ou eletrônicos) ao longo do conjunto de dados garante que os modelos treinados com esses dados consigam reconhecer e classificar itens similares de forma eficaz.

Legendas LGS: Analisando Descrições

Uma força significativa do conjunto de dados LGS está nas suas legendas. Com quase 15 milhões de legendas, a linguagem usada é diversificada e detalhada. A riqueza das descrições permite que os modelos ganhem mais contexto sobre os produtos.

Ao analisar os tipos de palavras usadas nas legendas, percebemos que o LGS tende a ter descrições que contêm atributos específicos do produto. Isso significa que as máquinas podem aprender com esses detalhes específicos, tornando mais fácil para elas entenderem e gerarem informações relevantes.

LGS em Comparação com Outros Conjuntos de Dados

Enquanto o LGS oferece uma abordagem nova para dados de e-commerce, é útil compará-lo com outros conjuntos de dados conhecidos. Por exemplo, conjuntos de dados tradicionais como o ImageNet geralmente contêm imagens coletadas de muitos tipos diferentes de cenas. Isso pode resultar em modelos de classificação que não funcionam bem com dados especializados, como e-commerce.

Nossos experimentos mostram que modelos treinados com dados do LGS podem superar aqueles treinados apenas com o ImageNet quando se trata de reconhecer e interpretar itens de e-commerce. Isso destaca a necessidade de conjuntos de dados que sejam especificamente adaptados a domínios particulares.

Tarefas de Classificação Usando LGS

Pra testar a eficácia do LGS, criamos diferentes conjuntos de classificação com base no conjunto de dados. Organizando os dados em categorias, podemos treinar modelos pra entender como diferentes objetos estão relacionados uns aos outros.

Descobrimos que modelos treinados com dados do LGS se saíram melhor nas tarefas de classificação em comparação com conjuntos de dados convencionais. Isso sugere que o LGS pode contribuir significativamente para melhorias no reconhecimento de produtos em e-commerce.

A Importância da Distribuição em Conjuntos de Dados

Quando se trabalha com conjuntos de dados, é crucial considerar como diferentes categorias estão distribuídas. No LGS, percebemos que a distribuição das categorias de produtos é muito mais focada em comparação com outros conjuntos de dados como o ImageNet. Essa concentração permite um treinamento de modelos mais eficaz, já que eles podem aprender características e detalhes específicos relevantes ao e-commerce.

Em contraste, modelos treinados em conjuntos de dados genéricos costumam ter dificuldades quando aplicados a tarefas especializadas. O LGS preenche essa lacuna, oferecendo um conjunto de dados focado que efetivamente conecta domínios gerais e específicos.

Melhorando a Classificação de Imagens

Nossos experimentos também mostram que os modelos treinados com dados do LGS se destacam em tarefas como classificação de imagens e geração de legendas. Usar dados do LGS pode melhorar significativamente o desempenho nessas tarefas, já que fornece o contexto e detalhes necessários.

Quando analisamos quão bem os modelos conseguiam classificar produtos com base nas imagens e descrições no LGS, observamos um aumento significativo na precisão. Isso destaca como é essencial ter conjuntos de dados que reflitam as características específicas das tarefas em questão.

Os Modelos Podem Transferir Conhecimento?

No aprendizado de máquina, a transferência de aprendizado é uma abordagem comum onde um modelo treinado em uma área é adaptado a outra. Com o LGS, encontramos resultados interessantes ao testar como os modelos podiam transferir conhecimento do conjunto de dados LGS para outros conjuntos de dados.

Nossos resultados indicaram que modelos treinados no LGS conseguiram se generalizar bem para outros conjuntos de dados. Isso é particularmente importante, pois mostra que as características aprendidas com o LGS são valiosas além do domínio de e-commerce.

Gerando Legendas Mais Ricas

Outro benefício do conjunto de dados LGS é que ele pode ser usado para treinar modelos que geram descrições, ou legendas, para imagens. As legendas detalhadas no LGS permitem que os modelos criem textos mais ricos e informativos do que aqueles treinados em conjuntos de dados tradicionais.

Quando testamos modelos treinados no LGS contra aqueles treinados em outros conjuntos de dados, os modelos LGS produziram consistentemente melhores legendas. Isso mostra o potencial do LGS não só para classificação, mas também para gerar textos úteis com base em inputs visuais.

Melhorando Modelos de Texto para Imagem

Modelos de geração de texto para imagem estão se tornando cada vez mais populares, especialmente para aplicações de e-commerce. Ao ajustar esses modelos com o LGS, descobrimos que eles conseguiam produzir imagens que se alinhavam bem com suas descrições.

Durante nossos experimentos com modelos adaptados ao e-commerce, vimos que as saídas dos modelos ajustados com o LGS eram frequentemente mais visualmente atraentes e relevantes do que aquelas geradas por outros conjuntos de dados. Isso reforça a ideia de que o LGS pode conectar a geração de imagens gerais a aplicações específicas no e-commerce.

Conclusão: O Valor do LGS

O conjunto de dados Let's Go Shopping (LGS) representa um avanço significativo na forma como coletamos e utilizamos pares de imagem-texto para aprendizado de máquina. Ao focar especificamente em dados de e-commerce, criamos um recurso que não só melhora tarefas de classificação, mas também aprimora a geração de legendas e aplicações de texto para imagem.

O conjunto de dados permite que pesquisadores e desenvolvedores treinem modelos que entendem as características únicas dos itens de e-commerce. Com seu foco distinto em imagens de alta qualidade e legendas descritivas, o LGS se destaca como uma ferramenta essencial na busca contínua por melhorias nas aplicações de aprendizado de máquina no espaço de varejo.

Através do nosso trabalho, esperamos incentivar mais exploração e desenvolvimento de conjuntos de dados que atendam às necessidades específicas de várias áreas, enquanto promovemos melhores práticas na coleta e anotação de dados.

Fonte original

Título: Let's Go Shopping (LGS) -- Web-Scale Image-Text Dataset for Visual Concept Understanding

Resumo: Vision and vision-language applications of neural networks, such as image classification and captioning, rely on large-scale annotated datasets that require non-trivial data-collecting processes. This time-consuming endeavor hinders the emergence of large-scale datasets, limiting researchers and practitioners to a small number of choices. Therefore, we seek more efficient ways to collect and annotate images. Previous initiatives have gathered captions from HTML alt-texts and crawled social media postings, but these data sources suffer from noise, sparsity, or subjectivity. For this reason, we turn to commercial shopping websites whose data meet three criteria: cleanliness, informativeness, and fluency. We introduce the Let's Go Shopping (LGS) dataset, a large-scale public dataset with 15 million image-caption pairs from publicly available e-commerce websites. When compared with existing general-domain datasets, the LGS images focus on the foreground object and have less complex backgrounds. Our experiments on LGS show that the classifiers trained on existing benchmark datasets do not readily generalize to e-commerce data, while specific self-supervised visual feature extractors can better generalize. Furthermore, LGS's high-quality e-commerce-focused images and bimodal nature make it advantageous for vision-language bi-modal tasks: LGS enables image-captioning models to generate richer captions and helps text-to-image generation models achieve e-commerce style transfer.

Autores: Yatong Bai, Utsav Garg, Apaar Shanker, Haoming Zhang, Samyak Parajuli, Erhan Bas, Isidora Filipovic, Amelia N. Chu, Eugenia D Fomitcheva, Elliot Branson, Aerin Kim, Somayeh Sojoudi, Kyunghyun Cho

Última atualização: 2024-03-05 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2401.04575

Fonte PDF: https://arxiv.org/pdf/2401.04575

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes