Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial# Recuperação de informação# Aprendizagem de máquinas

Melhorando a Extração de Atributos e Valores em E-commerce

Um modelo novo melhora a identificação de atributos e valores dos produtos em anúncios online.

― 7 min ler


Impulso na Extração deImpulso na Extração deDados de E-commerceextração de atributos de produtos.Novo modelo melhora a precisão na
Índice

O e-commerce cresceu rapidão, levando a uma infinidade de produtos disponíveis online. Cada produto geralmente tem várias características, conhecidas como atributos, e cada atributo tem valores específicos. Por exemplo, um smartphone pode ter atributos como Marca, Cor e Nome do Modelo com valores como Samsung, Phantom Gray e Galaxy S21. Esses atributos e valores ajudam os clientes a encontrar os produtos que querem.

Mas, muitas vezes, as listas de produtos dos vendedores têm informações incompletas, que podem ser melhoradas usando detalhes do título do produto. A tarefa de identificar automaticamente esses pares de atributo-valor é importante no e-commerce, mas pode ser complicada por causa da variedade de categorias de produtos e a quantidade limitada de dados rotulados disponíveis.

O Desafio

Extrair pares de atributo-valor dos nomes dos produtos não é fácil. Os vendedores às vezes dão detalhes que estão incompletos ou inconsistentes, dificultando o funcionamento dos sistemas automatizados. Além disso, muitos atributos existem para vários produtos, muitas vezes somando milhares, tornando a tarefa ainda mais complexa.

Além disso, alguns termos podem se sobrepor ou ser usados de forma intercambiável, como Model No. e Model Number. Essas inconsistências são um desafio para qualquer sistema que visa classificar ou extrair essas informações.

Além disso, esses sistemas de extração muitas vezes precisam funcionar Em tempo real, especialmente em ambientes de alto tráfego, o que adiciona outra camada de dificuldade.

Nossa Solução

Para resolver esses problemas, desenvolvemos um modelo em duas etapas que extrai pares de atributo-valor dos títulos dos produtos. O modelo é projetado para aprender com dados parcialmente rotulados, ou seja, pode trabalhar com pares de atributo-valor incompletos, reduzindo a necessidade de conjuntos de dados totalmente anotados.

Primeira Etapa: Extração de Atributos

A primeira etapa do modelo usa um modelo generativo para prever os atributos potenciais presentes no título do produto. Em outras palavras, ele pega um nome de produto e gera uma lista de possíveis atributos associados a esse nome.

Segunda Etapa: Extração de Valores

Uma vez que os atributos são identificados, a segunda etapa entra em ação. Essa etapa usa um modelo de classificação para determinar os valores correspondentes para cada atributo identificado.

Usando essas duas etapas, o modelo pode lidar efetivamente com as complexidades envolvidas nos vários atributos enquanto também é treinado com dados parcialmente rotulados.

Desempenho do Modelo

Nosso modelo mostra uma melhora significativa em relação aos sistemas existentes. Ele aumenta o número de pares de atributo-valor identificados corretamente em 56,3% comparado a abordagens anteriores. Além disso, introduzimos um método chamado "bootstrapping", que ajuda a refinar e expandir progressivamente o conjunto de dados de treinamento.

Integração em Aplicações do Mundo Real

Integrar esse modelo na maior plataforma de e-commerce B2B da Índia foi um sucesso, alcançando um aumento de 21,1% na identificação precisa de pares de atributo-valor em relação aos sistemas existentes, mantendo uma alta pontuação de precisão.

Importância dos Atributos e Valores

No contexto do e-commerce, atributos e valores desempenham um papel essencial ajudando os clientes a refinarem suas buscas. Atributos comuns como Marca, Modelo e Cor ajudam os consumidores a tomarem decisões rápidas e informadas.

Por exemplo, se um comprador está procurando um produto específico, saber sua Marca e Modelo pode reduzir significativamente os resultados da busca. Mas se a informação de atributo-valor estiver faltando ou estiver errada, isso pode causar confusão ou frustração para os clientes.

Metodologia para Extração de Atributo-Valor

O modelo usa uma abordagem em duas etapas:

  1. Extração de Atributos via Modelo Generativo: Essa etapa identifica todos os atributos relevantes associados a um nome de produto.
  2. Extração de Valores via Modelo de Classificação: Essa etapa classifica cada palavra no título do produto para verificar se representa um valor para os atributos identificados.

Treinamento com Dados Parcialmente Rotulados

Um aspecto único do nosso método é sua capacidade de aprender efetivamente com dados parcialmente rotulados. Ao incorporar marcadores durante o processo de treinamento, o modelo consegue entender melhor quais palavras no título do produto correspondem a valores para vários atributos.

Esses marcadores ajudam o modelo a focar nas partes relevantes da entrada, permitindo que ele gere previsões mais precisas e úteis durante o processo de extração.

Pruning de Valores

Além das técnicas acima, introduzimos um conceito chamado "Pruning de Valores". Isso garante que o modelo possa gerar saídas nulas para quaisquer atributos incorretos previstos pelo sistema. Esse método melhora a precisão geral da extração de pares de atributo-valor ao filtrar previsões irrelevantes, resultando em uma saída mais limpa.

Comparação com Modelos Existentes

Quando comparado aos modelos existentes, nosso sistema mostra desempenho superior em avaliações automatizadas e manuais. A precisão - quão frequentemente as previsões do modelo estão corretas - e o recall - quantas previsões corretas o modelo faz - costumam ser maiores para nosso modelo.

Usando diferentes variações do nosso modelo, avaliamos como vários componentes, como marcadores e pruning de valores, afetam o desempenho geral. Os resultados indicaram que ambos são cruciais para melhorar a capacidade do modelo de extrair atributos e valores com precisão.

Configuração Experimental

Para verificar a eficácia do nosso modelo, realizamos experimentos usando dados do mundo real. Pegamos listas de produtos de uma plataforma B2B de e-commerce popular, garantindo que tivéssemos um conjunto diversificado de atributos e produtos para um teste completo.

Ao usar um conjunto de dados com milhares de pares de atributos-valores únicos, conseguimos treinar o modelo de forma eficaz e avaliar seu desempenho em um número substancial de exemplos.

Resultados

Os resultados dos nossos experimentos revelam que o modelo em duas etapas supera consistentemente os sistemas existentes, especialmente em tarefas que envolvem dados incompletos. O uso de marcadores e pruning de valores melhora significativamente o equilíbrio entre precisão e recall.

Lidando com Nomes de Produtos Longos

Para avaliar ainda mais o desempenho do modelo, examinamos como ele lida com nomes de produtos longos, já que esses são comuns no e-commerce. Nosso modelo manteve alta precisão mesmo com nomes de produtos que contêm muitas palavras, o que demonstra sua robustez e adaptabilidade.

Conclusão

Em conclusão, nosso modelo em duas etapas aborda efetivamente os desafios de extrair pares de atributo-valor dos títulos dos produtos no e-commerce. Ao integrar técnicas inovadoras como treinamento com dados parcialmente rotulados, embeddings de marcadores e pruning de valores, nossa abordagem oferece uma melhoria substancial em relação aos métodos tradicionais.

O sucesso do nosso modelo quando aplicado a uma grande plataforma online destaca seu valor prático e potencial para uma aplicação mais ampla no setor de e-commerce.

Imaginamos que futuras expansões possam envolver mais iterações de bootstrapping para continuar melhorando a qualidade dos dados. À medida que o cenário do e-commerce evolui, a necessidade de extração de atributos precisa e em tempo real continuará sendo crítica, e nosso modelo está bem posicionado para atender a essas necessidades.

Fonte original

Título: A Framework for Leveraging Partially-Labeled Data for Product Attribute-Value Identification

Resumo: In the e-commerce domain, the accurate extraction of attribute-value pairs (e.g., Brand: Apple) from product titles and user search queries is crucial for enhancing search and recommendation systems. A major challenge with neural models for this task is the lack of high-quality training data, as the annotations for attribute-value pairs in the available datasets are often incomplete. To address this, we introduce GenToC, a model designed for training directly with partially-labeled data, eliminating the necessity for a fully annotated dataset. GenToC employs a marker-augmented generative model to identify potential attributes, followed by a token classification model that determines the associated values for each attribute. GenToC outperforms existing state-of-the-art models, exhibiting upto 56.3% increase in the number of accurate extractions. Furthermore, we utilize GenToC to regenerate the training dataset to expand attribute-value annotations. This bootstrapping substantially improves the data quality for training other standard NER models, which are typically faster but less capable in handling partially-labeled data, enabling them to achieve comparable performance to GenToC. Our results demonstrate GenToC's unique ability to learn from a limited set of partially-labeled data and improve the training of more efficient models, advancing the automated extraction of attribute-value pairs. Finally, our model has been successfully integrated into IndiaMART, India's largest B2B e-commerce platform, achieving a significant increase of 20.2% in the number of correctly identified attribute-value pairs over the existing deployed system while achieving a high precision of 89.5%.

Autores: D. Subhalingam, Keshav Kolluru, Mausam, Saurabh Singal

Última atualização: 2024-11-18 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2405.10918

Fonte PDF: https://arxiv.org/pdf/2405.10918

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes