Avançando Recomendações Top-K com Modelos Generativos
A pesquisa melhora os sistemas de recomendação prevendo vários itens de uma vez.
Anna Volodkevich, Danil Gusak, Anton Klenitskiy, Alexey Vasilev
― 8 min ler
Índice
- Objetivo da Pesquisa
- Como Funcionam As Recomendações
- O Desafio das Recomendações Top-K
- Abordagem Proposta
- Avaliação das Estratégias de Geração
- Visão Geral do Dataset
- Configuração Experimental
- Modelo Generativo Usado
- Métodos Base
- Desempenho de Diferentes Estratégias
- Agregação de Múltiplas Sequências
- Impacto da Temperatura e Número de Sequências
- Considerações sobre Velocidade de Inferência
- Resultados Gerais de Desempenho
- Conclusão
- Fonte original
- Ligações de referência
Hoje em dia, recomendar itens pros usuários com base nas interações passadas é bem comum. Isso geralmente é feito através de sistemas que tentam prever o que a pessoa pode querer a seguir, como músicas, filmes ou produtos. Essa pesquisa foca em melhorar como essas recomendações são feitas, principalmente quando se trata de sugerir vários itens ao mesmo tempo.
Objetivo da Pesquisa
O principal objetivo aqui é entender como prever melhor quais itens um usuário gostaria de ver a seguir em uma lista de recomendações. Em vez de prever só um item de cada vez, queremos olhar pra várias sugestões, chamadas de recomendações Top-K. A pesquisa investiga maneiras de tornar esses sistemas mais eficazes usando um tipo específico de modelo conhecido como transformers generativos.
Como Funcionam As Recomendações
A maioria dos sistemas de recomendação analisa a sequência de itens com os quais um usuário interagiu no passado e tenta adivinhar o que ele vai gostar no futuro próximo. Muitos sistemas existentes focaram em prever apenas o próximo item. Embora isso funcione bem pra certos serviços, há um crescente interesse em prever vários itens de uma vez pra interações de longo prazo.
O Desafio das Recomendações Top-K
Nas recomendações Top-K, o sistema tenta prever uma lista de K itens com os quais um usuário pode se engajar em breve. O número de itens que um usuário realmente interagiu é denotado por N. O desafio é garantir que o modelo não seja treinado apenas pra prever um item, mas que consiga gerar de forma eficaz uma lista classificada de múltiplos itens possíveis.
Existem algumas limitações na abordagem padrão do Top-K. Normalmente, esses sistemas não são treinados diretamente pra prever vários itens ao mesmo tempo. Eles também tendem a avaliar todas as possíveis recomendações de forma independente, o que pode levar a situações em que itens similares se sobrepõem nas classificações.
Abordagem Proposta
Pra lidar com essas falhas, essa pesquisa propõe modificar os modelos existentes usados pra prever itens únicos. Ajustando como esses modelos geram recomendações, conseguimos alinhar melhor com a tarefa de sugerir vários itens de uma vez. A pesquisa se concentra em um modelo popular chamado GPT-2, que é treinado pra prever o próximo item em uma sequência de usuários.
Uma vez treinado de forma eficaz, o modelo gera recomendações passo a passo. Depois que cada item é previsto, ele considera todos os itens recomendados anteriormente, o que permite ao sistema criar sugestões mais interconectadas e relevantes. Esse método exige mais poder computacional, já que precisa avaliar todos os itens em cada etapa.
Avaliação das Estratégias de Geração
Avaliamos diferentes estratégias para gerar recomendações. Algumas dessas estratégias, que também são usadas na geração de texto, incluem Decodificação Gananciosa, Busca em Feixe e Amostragem de Temperatura.
- Decodificação Gananciosa: Essa estratégia escolhe o próximo item mais provável com base nas previsões do modelo.
- Busca em Feixe: Essa opção mantém um número fixo das sequências mais prováveis enquanto os itens são gerados.
- Amostragem de Temperatura: Esse método introduz um pouco de aleatoriedade nas previsões, selecionando itens com base em sua probabilidade, o que pode ajudar a adicionar variedade nas recomendações.
Além disso, o artigo introduz duas novas estratégias: Agregação de Classificação Recíproca e Agregação de Relevância. Essas estratégias utilizam a geração de múltiplas sequências pra criar uma lista final de recomendações mais precisa, combinando as informações de diferentes sugestões.
Visão Geral do Dataset
Pra validar nossos métodos propostos, testamos em vários datasets. Cada dataset representa diferentes domínios e tipos de feedback dos usuários, proporcionando uma avaliação bem abrangente das abordagens:
- MovieLens-20M: Um vasto dataset de recomendações de filmes.
- Yelp: Um dataset de avaliações de negócios conhecido por ser esparso.
- Steam: Dados de usuários de uma plataforma de jogos.
- Gowalla: Informação de uma rede social baseada em localização.
- Twitch-100k: Dados sobre usuários de uma plataforma de streaming.
- BeerAdvocate: Avaliações de cervejas coletadas de uma plataforma dedicada.
Usando datasets diversos, conseguimos determinar melhor a eficácia das abordagens propostas em cenários do mundo real.
Configuração Experimental
Os experimentos envolveram filtrar usuários com interações muito limitadas pra garantir que os modelos tivessem dados suficientes pra trabalhar. Focamos em avaliar como bem os modelos conseguiam prever recomendações de longo prazo, segurando as últimas interações dos usuários pra testes de validação.
Pra medir o desempenho das recomendações, usamos métricas padrão como NDCG, Recall e Média de Precisão. Essas métricas ajudam a avaliar a qualidade das recomendações com base em sua relevância e classificações.
Modelo Generativo Usado
Para nossos experimentos, utilizamos o modelo GPT-2, que é conhecido por suas capacidades de geração de sequências. O modelo foi treinado especificamente pra tarefas de recomendação, usando IDs de itens em vez de tokens de texto padrão como entrada.
Métodos Base
Pra comparar a eficácia das nossas estratégias propostas, usamos vários métodos base, incluindo:
- BPR-MF: Um método tradicional que foca em fatoração de matriz.
- SASRec e BERT4Rec: Duas técnicas líderes em recomendações sequenciais.
Esses métodos base fornecem um parâmetro de comparação pra ver como bem nossas estratégias propostas performam.
Desempenho de Diferentes Estratégias
Avaliamos o impacto das várias estratégias de geração nas recomendações Top-K. Nossas descobertas indicaram que estratégias padrão como a decodificação gananciosa nem sempre superaram as previsões padrão do Top-K. No entanto, as estratégias de geração autorregressivas mostraram ser benéficas pra previsões de longo prazo.
Observações revelaram que a decodificação gananciosa muitas vezes se saiu melhor do que métodos mais aleatórios como a amostragem de temperatura. Isso foi surpreendente, já que, em tarefas de geração de texto, abordagens mais criativas tendem a se sair melhor.
Agregação de Múltiplas Sequências
A introdução de métodos de agregação de múltiplas sequências forneceu uma maneira eficaz de melhorar a qualidade das recomendações. Gerando múltiplas sequências para cada interação do usuário e agregando os resultados, conseguimos criar recomendações mais confiáveis.
As duas estratégias de agregação-Agregação de Classificação Recíproca e Agregação de Relevância-se mostraram particularmente eficazes. Elas levam em conta diferentes gerações de sequências de itens pra fornecer melhores sugestões pros usuários.
Impacto da Temperatura e Número de Sequências
Os experimentos mostraram que ajustar a temperatura usada na amostragem impactava a qualidade das recomendações. Temperaturas mais baixas levavam a menos diversidade, enquanto temperaturas mais altas introduziam aleatoriedade demais. Era crucial encontrar um equilíbrio.
Quanto ao número de sequências geradas, os resultados melhoraram consistentemente até um certo ponto, após o qual sequências adicionais não trouxeram ganhos significativos, mas aumentaram os custos computacionais.
Considerações sobre Velocidade de Inferência
Gerar múltiplas sequências requer mais computação; no entanto, na prática, as recomendações podem ser paralelizadas, ajudando a gerenciar a latência. Isso torna as estratégias propostas práticas para aplicações do mundo real.
Resultados Gerais de Desempenho
A avaliação mostrou que nossas estratégias propostas ofereceram melhorias notáveis em comparação com métodos tradicionais em vários datasets. Embora exigissem mais recursos, o aumento na qualidade justifica esse custo extra. A estratégia de agregação de relevância consistentemente superou sua contraparte, indicando a importância de boas técnicas de agregação.
Conclusão
Nesta pesquisa, analisamos várias maneiras de melhorar as recomendações sequenciais Top-K. Descobrimos que métodos tradicionais de sequência única muitas vezes não se comparam com as abordagens inovadoras de múltiplas sequências que introduzimos. Nossos experimentos confirmaram que essas novas estratégias não apenas melhoram a qualidade das previsões, mas também se adaptam bem a diferentes conjuntos de dados e comportamentos dos usuários.
Por fim, nossas descobertas ressaltam o potencial das técnicas de geração autorregressivas em fazer recomendações relevantes, marcando um passo progressivo rumo a sistemas de recomendação mais eficazes e amigáveis aos usuários. Trabalhos futuros poderiam focar em aplicar essas estratégias usando outras arquiteturas de modelo, ampliando ainda mais sua aplicabilidade.
Título: Autoregressive Generation Strategies for Top-K Sequential Recommendations
Resumo: The goal of modern sequential recommender systems is often formulated in terms of next-item prediction. In this paper, we explore the applicability of generative transformer-based models for the Top-K sequential recommendation task, where the goal is to predict items a user is likely to interact with in the "near future". We explore commonly used autoregressive generation strategies, including greedy decoding, beam search, and temperature sampling, to evaluate their performance for the Top-K sequential recommendation task. In addition, we propose novel Reciprocal Rank Aggregation (RRA) and Relevance Aggregation (RA) generation strategies based on multi-sequence generation with temperature sampling and subsequent aggregation. Experiments on diverse datasets give valuable insights regarding commonly used strategies' applicability and show that suggested approaches improve performance on longer time horizons compared to widely-used Top-K prediction approach and single-sequence autoregressive generation strategies.
Autores: Anna Volodkevich, Danil Gusak, Anton Klenitskiy, Alexey Vasilev
Última atualização: Sep 26, 2024
Idioma: English
Fonte URL: https://arxiv.org/abs/2409.17730
Fonte PDF: https://arxiv.org/pdf/2409.17730
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.