Sistema MXT: Melhorando os Dados de Produtos no Comércio Eletrônico
Um sistema que melhora a precisão das informações dos produtos em sites de e-commerce.
― 6 min ler
Índice
Sites de e-commerce têm uma grande variedade de produtos, com um monte de informações ligadas a cada item. Essa informação pode vir na forma de descrições em texto e imagens. Mas, às vezes, os vendedores esquecem de preencher detalhes importantes sobre seus produtos ou fornecem informações erradas. Isso pode dificultar a vida dos clientes na hora de encontrar o que eles querem.
Pra resolver esse problema, a gente desenvolveu um sistema que identifica automaticamente e preenche os detalhes que estão faltando sobre os produtos. Nossa abordagem junta tanto a descrição em texto quanto as imagens dos produtos pra entender melhor quais atributos (como cor e tamanho) estão sendo oferecidos. Dessa forma, os clientes têm uma ideia mais completa dos produtos que estão interessados.
O Desafio da Extração de Atributos
Quando os produtos são listados online, eles costumam vir com uma mistura de informações estruturadas e não estruturadas. Informações estruturadas incluem atributos claros como cor, tamanho e material, enquanto as não estruturadas podem ser textos descritivos e imagens que podem não mencionar esses atributos diretamente. Infelizmente, os vendedores nem sempre oferecem informações completas ou corretas.
Essa situação apresenta um desafio. Precisamos extrair esses atributos que estão faltando do texto e das imagens fornecidas. Por exemplo, se um vestido é listado sem mencionar o tipo de manga, nosso sistema ainda deve conseguir identificar se o vestido tem mangas longas ou curtas com base na imagem.
Nossa Solução: O Sistema MXT
Nossa solução é um sistema chamado MXT, que significa uma estrutura de extração de atributos multimodal. Esse sistema aproveita três métodos importantes pra alcançar resultados precisos:
Fusão de Texto e Imagem: A gente cria uma compreensão combinada ao misturar insights de texto e imagens. Isso ajuda o modelo a fazer melhores julgamentos sobre os atributos.
Adaptação a Tipos de Produtos: Nosso modelo pode se ajustar pra lidar com diferentes tipos de produtos ao mesmo tempo. Em vez de criar um modelo separado pra cada tipo de produto, temos um único modelo que aprende com múltiplos produtos.
Modelo Generativo: O sistema gera respostas em tempo real. Ao ver um produto, ele faz perguntas como “Qual é a cor disso?” e então usa tanto o texto quanto as imagens pra chegar a uma resposta.
Componentes Chave do Sistema MXT
Nosso sistema MXT consiste em três componentes vitais:
1. Porta de Adaptação Multimodal (MAG)
A MAG desempenha um papel crucial ao juntar as informações do texto e das imagens. Os dados de texto e imagem são processados juntos, garantindo que a representação final do produto inclua os detalhes mais relevantes de cada fonte.
2. Rede Xception
Essa rede é um poderoso codificador de imagem que ajuda a criar representações visuais do produto. Ela foca em distinguir características importantes em uma imagem, o que é essencial pra identificar atributos como tipo de manga ou decote.
3. Codificador-Decodificador T5
Esse é um modelo de texto sofisticado que gera respostas. Ele pega as informações combinadas do texto e da imagem e produz valores de atributo com base nas perguntas feitas.
Desempenho e Testes
Testamos nosso sistema MXT em dados reais de produtos de plataformas de e-commerce populares. Os resultados foram impressionantes. Nosso modelo superou significativamente os modelos tradicionais feitos pra extração de atributos, mostrando uma melhor capacidade de lembrar detalhes sobre os produtos.
Fizemos experimentos extensivos em dois conjuntos de dados do mundo real pra validar nossas descobertas. Comparamos o desempenho do nosso modelo com métodos de ponta e descobrimos que nossa abordagem consistentemente entregou resultados melhores.
Aplicações no Mundo Real
O sistema MXT foi implementado com sucesso em uma grande loja de e-commerce, onde processou informações de milhares de tipos de produtos e atributos. Ele extraiu milhões de valores de atributo, melhorando a qualidade das listagens de produtos e aprimorando a experiência de compra dos clientes.
Escalabilidade e Praticidade
Uma das principais forças do sistema MXT é sua capacidade de escalar. Como ele pode processar múltiplos tipos de produtos ao mesmo tempo, evita a complicação de ter modelos separados pra cada tipo. Isso facilita a gestão e reduz os custos.
A gente também usou supervisão distante no treinamento dos nossos modelos. Isso significa que não dependemos muito de trabalho humano pra rotular os dados, o que geralmente é uma tarefa demorada e cara.
Lidando com Informações Faltantes
Uma característica chave do nosso sistema é sua capacidade de prever atributos que não estavam presentes nos dados de treinamento. Em modelos tradicionais, se um atributo específico não estava incluído no conjunto de treinamento, o modelo não conseguiria reconhecê-lo. Mas, nosso modelo consegue fazer previsões mesmo pra novos valores de atributo que não foram vistos, o que é uma grande vantagem.
Além disso, ele pode extrair valores que não são explicitamente mencionados no texto, mas podem ser inferidos através de imagens ou contexto. Por exemplo, se a descrição de uma camisa não menciona sua cor, mas a imagem mostra claramente que ela é vermelha, nosso modelo ainda vai identificar isso.
Direções Futuras
Embora tenhamos alcançado um sucesso substancial com nosso sistema MXT, existem várias áreas onde pretendemos fazer mais melhorias.
Expansão de Idiomas: Atualmente, nossos testes foram limitados a conjuntos de dados em inglês. Queremos expandir nosso modelo pra lidar com múltiplos idiomas, tornando-o acessível pra plataformas de e-commerce globais.
Aprimorando o Tokenizer: O tokenizer T5 atualmente não captura termos específicos de e-commerce com precisão. Ao pré-treiná-lo em dados exclusivamente de e-commerce, podemos melhorar sua compreensão da linguagem específica do setor.
Combinando Abordagens: Estamos interessados em misturar nosso modelo generativo com métodos de extração existentes. Esses modelos tradicionais funcionam bem pra atributos com detalhes numéricos específicos, como medidas. Ao combinar o melhor de ambos os mundos, podemos aumentar a precisão geral.
Técnicas Baseadas em Grafo: Os produtos costumam compartilhar características comuns. Ao usar métodos baseados em grafo, podemos capturar melhor as relações entre diferentes produtos, o que pode levar a uma melhor inferência de atributos.
Conclusão
Em resumo, o sistema MXT se destaca como uma solução eficaz pra extrair atributos de produtos de listagens online. Ao integrar de forma inteligente informações textuais e visuais, ele preenche com sucesso as lacunas que costumam ocorrer nas descrições dos produtos. Sua capacidade de se adaptar a vários tipos de produtos e prever atributos não vistos representa um avanço significativo na área.
À medida que continuamos a aperfeiçoar o sistema MXT, permanecemos otimistas sobre seu potencial pra transformar o cenário do e-commerce, tornando a experiência de compra mais tranquila e satisfatória pra todos os clientes.
Título: Large Scale Generative Multimodal Attribute Extraction for E-commerce Attributes
Resumo: E-commerce websites (e.g. Amazon) have a plethora of structured and unstructured information (text and images) present on the product pages. Sellers often either don't label or mislabel values of the attributes (e.g. color, size etc.) for their products. Automatically identifying these attribute values from an eCommerce product page that contains both text and images is a challenging task, especially when the attribute value is not explicitly mentioned in the catalog. In this paper, we present a scalable solution for this problem where we pose attribute extraction problem as a question-answering task, which we solve using \textbf{MXT}, consisting of three key components: (i) \textbf{M}AG (Multimodal Adaptation Gate), (ii) \textbf{X}ception network, and (iii) \textbf{T}5 encoder-decoder. Our system consists of a generative model that \emph{generates} attribute-values for a given product by using both textual and visual characteristics (e.g. images) of the product. We show that our system is capable of handling zero-shot attribute prediction (when attribute value is not seen in training data) and value-absent prediction (when attribute value is not mentioned in the text) which are missing in traditional classification-based and NER-based models respectively. We have trained our models using distant supervision, removing dependency on human labeling, thus making them practical for real-world applications. With this framework, we are able to train a single model for 1000s of (product-type, attribute) pairs, thus reducing the overhead of training and maintaining separate models. Extensive experiments on two real world datasets show that our framework improves the absolute recall@90P by 10.16\% and 6.9\% from the existing state of the art models. In a popular e-commerce store, we have deployed our models for 1000s of (product-type, attribute) pairs.
Autores: Anant Khandelwal, Happy Mittal, Shreyas Sunil Kulkarni, Deepak Gupta
Última atualização: 2023-06-01 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.00379
Fonte PDF: https://arxiv.org/pdf/2306.00379
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.