Simple Science

Ciência de ponta explicada de forma simples

# Informática# Recuperação de informação# Computação e linguagem

Melhorando a Pesquisa Online com EBRM

Apresentando um novo modelo pra melhorar os resultados de busca nas compras online.

― 7 min ler


EBRM: Uma Revolução naEBRM: Uma Revolução naBuscaentidades.online com relevância baseada emTransformando a eficiência da busca
Índice

Encontrar os itens certos ao fazer compras online pode ser complicado. Com tantas opções disponíveis, é essencial que os sistemas de busca ajudem os usuários a descobrir o que querem rapidamente. Uma parte fundamental desse processo é como um sistema consegue combinar as palavras-chave de busca do usuário com os produtos no seu banco de dados.

O sistema de busca precisa ser rápido e preciso. No entanto, os sistemas atuais às vezes têm dificuldades. Alguns modelos focam na velocidade, mas perdem precisão, enquanto outros oferecem bons resultados, mas são lentos. Este artigo apresenta uma nova abordagem chamada Modelo de Relevância Baseado em Entidades (EBRM), que busca ser rápido e preciso ao mesmo tempo.

A Necessidade de Melhorar a Busca

Hoje em dia, muita gente faz compras online em plataformas populares como Amazon e eBay. Com milhões de produtos disponíveis, os usuários costumam digitar frases curtas para descrever o que querem, o que pode ser vago. Por outro lado, os vendedores geralmente escrevem títulos de produtos longos e detalhados. Essa diferença torna difícil para os sistemas de busca ligarem as pesquisas dos usuários aos itens certos.

Métodos tradicionais baseados em palavras-chave, como BM25 e TF-IDF, analisam com que frequência as palavras aparecem em uma consulta e nos títulos dos produtos para decidir quão relevantes eles são. Mas esses métodos muitas vezes ficam aquém devido a diferenças no vocabulário entre usuários e vendedores. Por exemplo, se um usuário busca por "peso de academia", um modelo pode erroneamente associar essa consulta a um item não relacionado por causa de discordâncias de vocabulário.

Para resolver esses problemas, os sistemas de busca modernos começaram a usar redes neurais que representam consultas e itens como vetores densos em um espaço semântico. Esses métodos, especialmente os que usam modelos baseados em Transformer, como o BERT, mostraram-se promissores na hora de recuperar informações relevantes.

As Limitações dos Modelos Existentes

No entanto, existem limitações nesses modelos avançados. Bi-encoders, que criam representações separadas para consultas e itens, podem armazenar resultados para velocidade, mas podem sacrificar a precisão. Cross-encoders oferecem melhor precisão, pois consideram a interação total entre a consulta e o item, mas tendem a ser lentos porque não podem pré-computar vetores.

Além disso, a maioria dos modelos existentes apenas fornece previsões sem explicar como chegaram a esses resultados. Os humanos conseguem facilmente justificar suas decisões com base nos itens que combinam com a consulta. Por exemplo, se um usuário digita "peso de academia", espera ver itens como "halteres", que são tipos específicos relacionados à consulta. Atualmente, se um modelo de busca comete um erro, pode levar muito tempo e esforço para corrigir isso.

Apresentando o Modelo de Relevância Baseado em Entidades (EBRM)

Para abordar essas limitações, apresentamos o Modelo de Relevância Baseado em Entidades (EBRM). Essa nova abordagem foca em entender as entidades - itens ou categorias específicas - em cada produto. Ao identificar essas entidades, conseguimos desmembrar o problema de relevância de pares consulta-item para pares consulta-entidade. Isso nos permite agregar resultados para previsões melhoradas.

O EBRM consiste em dois componentes principais: um módulo de relevância consulta-entidade e um módulo de previsão que utiliza lógica suave. O módulo de relevância é treinado para avaliar quão bem uma consulta se relaciona com entidades específicas dentro dos itens. Usando esse método, não apenas aumentamos a precisão das nossas previsões, mas também tornamos o processo mais fácil de interpretar. Os usuários conseguem entender por que certos itens são mostrados com base nas entidades que combinam.

Como Funciona o EBRM

No nosso modelo, primeiro identificamos entidades relevantes nos títulos dos produtos. Por exemplo, se um usuário busca por "pesos de academia", o sistema reconhece que "halter" é uma entidade correspondente. Através desse foco nas entidades, buscamos determinar se a consulta e um item são relevantes verificando se há entidades de tipo de produto correspondentes.

O modelo usa uma camada de lógica suave para combinar os resultados das previsões de relevância consulta-entidade em uma pontuação final de relevância consulta-item. Isso ajuda a agilizar o processo e permite o armazenamento em cache, o que acelera as buscas online.

Importância do Reconhecimento de Entidade

Um aspecto significativo do EBRM é o reconhecimento de entidade. Ao reconhecer entidades específicas nos títulos dos produtos, conseguimos criar uma conexão mais significativa entre o que os usuários estão procurando e os itens disponíveis. Isso não apenas ajuda em previsões precisas, mas também fornece justificativa para os resultados previstos.

Por exemplo, se um título diz "Melhores Halteres para Academia em Casa", o sistema deve reconhecer facilmente "Halteres" como a entidade relevante para a consulta "pesos de academia". Esse processo permite que o modelo filtre os inúmeros títulos de itens disponíveis em uma plataforma de e-commerce de maneira mais eficaz.

Treinando o Modelo

Treinar o EBRM requer uma grande quantidade de dados, mas, em vez de depender apenas de dados rotulados meticulosamente, nosso modelo também utiliza padrões do comportamento do usuário. Ao analisar logs de busca da plataforma, conseguimos criar dados pseudo-rotulados que refletem o que os usuários tendem a clicar. Esse método reduz significativamente a quantidade de rotulagem manual necessária, enquanto ainda treina o modelo de forma eficaz.

Reunimos dados das interações dos usuários, onde cliques e compras fornecem insights sobre quais itens são relevantes para consultas específicas. Analisando essas interações, conseguimos determinar quais itens interessam aos usuários e usar essa informação para melhorar as previsões do modelo.

Avaliando o EBRM

Para garantir a eficácia do EBRM, realizamos vários experimentos usando conjuntos de dados privados e conjuntos de dados públicos. Os resultados mostraram que o EBRM superou significativamente os modelos tradicionais em termos de precisão e velocidade. Ele não apenas oferece previsões mais rápidas, mas também melhora a experiência de compra geral, minimizando resultados irrelevantes.

Durante o processo de avaliação, foi observado que o EBRM opera de forma eficiente em aplicações do mundo real. A capacidade do modelo de armazenar em cache e recuperar previsões de relevância de entidade permite que ele lide rapidamente com as solicitações dos usuários, tornando-se uma ferramenta valiosa para plataformas de compras online.

Aplicação e Impacto no Mundo Real

O EBRM foi implantado em um ambiente de e-commerce real, onde passou por testes A/B contra modelos de busca existentes. Os resultados confirmaram que o EBRM melhorou a relevância da busca em uma porcentagem notável. Isso demonstra seu potencial impacto em melhorar a experiência de compra para os usuários.

Além disso, os requisitos de armazenamento baixos do modelo são uma vantagem significativa para sistemas de e-commerce. Com cada item tendo um número limitado de entidades reconhecidas, o EBRM pode operar sem exigir recursos computacionais excessivos.

Conclusão

Em resumo, o Modelo de Relevância Baseado em Entidades oferece uma solução promissora para os desafios enfrentados pelos sistemas de busca online atuais. Ao focar nas entidades, o EBRM melhora a conexão entre as consultas dos usuários e as ofertas de produtos. O modelo é não apenas preciso e rápido, mas também interpretável, permitindo que usuários e operadores de sistema entendam a razão por trás de suas previsões.

À medida que o e-commerce continua a crescer, sistemas de busca eficazes serão vitais para ajudar os usuários a encontrar os produtos que desejam. O EBRM é um passo em direção a alcançar esse objetivo, abordando as lacunas presentes nos métodos de busca tradicionais e oferecendo uma estrutura robusta para futuras melhorias nas experiências de compras online.

Fonte original

Título: Improving Text Matching in E-Commerce Search with A Rationalizable, Intervenable and Fast Entity-Based Relevance Model

Resumo: Discovering the intended items of user queries from a massive repository of items is one of the main goals of an e-commerce search system. Relevance prediction is essential to the search system since it helps improve performance. When online serving a relevance model, the model is required to perform fast and accurate inference. Currently, the widely used models such as Bi-encoder and Cross-encoder have their limitations in accuracy or inference speed respectively. In this work, we propose a novel model called the Entity-Based Relevance Model (EBRM). We identify the entities contained in an item and decompose the QI (query-item) relevance problem into multiple QE (query-entity) relevance problems; we then aggregate their results to form the QI prediction using a soft logic formulation. The decomposition allows us to use a Cross-encoder QE relevance module for high accuracy as well as cache QE predictions for fast online inference. Utilizing soft logic makes the prediction procedure interpretable and intervenable. We also show that pretraining the QE module with auto-generated QE data from user logs can further improve the overall performance. The proposed method is evaluated on labeled data from e-commerce websites. Empirical results show that it achieves promising improvements with computation efficiency.

Autores: Jiong Cai, Yong Jiang, Yue Zhang, Chengyue Jiang, Ke Yu, Jianhui Ji, Rong Xiao, Haihong Tang, Tao Wang, Zhongqiang Huang, Pengjun Xie, Fei Huang, Kewei Tu

Última atualização: 2023-07-19 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2307.00370

Fonte PDF: https://arxiv.org/pdf/2307.00370

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes