Simple Science

Ciência de ponta explicada de forma simples

# Informática# Recuperação de informação

Avaliando a Aumento de Dados em Sistemas de Recomendação Sequencial

Analisando o papel da augmentação de dados versus aprendizado contrastivo nas recomendações.

― 9 min ler


Aumento de Dados vs.Aumento de Dados vs.Aprendizagem Contrastivausuários.dados em melhorar recomendações para osAvaliando o papel da augmentação de
Índice

Sistemas de recomendação sequencial (SRS) têm como objetivo prever o que os usuários vão fazer a seguir com base no comportamento passado deles. Os usuários interagem com itens em uma determinada ordem, e o SRS tenta entender esse padrão para sugerir itens futuros. Um problema comum enfrentado por esses sistemas é a Escassez de dados, que significa que pode não haver dados suficientes de interação entre usuários e itens devido ao grande número de usuários e itens. Para lidar com isso, estudos recentes começaram a usar um método chamado aprendizado contrastivo (CL) para aproveitar melhor os dados disponíveis.

O CL funciona garantindo que itens similares (ou sequências de interações) fiquem mais próximos em um certo espaço de representação, enquanto mantém os dissimilares separados. Isso geralmente é feito através de Aumento de Dados, onde os dados de interação originais são alterados de formas específicas para criar novos dados de treinamento. Apesar do aumento do uso do CL, o papel do aumento de dados na melhoria das recomendações ainda não foi explorado a fundo.

Isso leva a uma pergunta importante: podemos conseguir bons resultados de recomendação apenas usando técnicas de aumento de dados sem depender de métodos de aprendizado contrastivo? Para descobrir, vários métodos de aumento de dados foram testados contra abordagens populares de recomendação baseadas em CL.

Sistemas de Recomendação Sequencial

Os SRS são importantes em várias áreas, como compras online, streaming de música e redes sociais. O objetivo principal é prever o próximo item que um usuário pode gostar com base em suas interações passadas. No entanto, o desafio da escassez de dados torna difícil treinar esses modelos de forma eficaz, já que muitos usuários podem ter interagido com apenas alguns itens.

Nos últimos anos, pesquisadores têm focado em usar o aprendizado contrastivo para melhorar a representação dos itens, extraindo sinais úteis dos dados de interação entre usuários e itens. Várias abordagens de CL foram desenvolvidas e normalmente seguem duas etapas: criar visões positivas e negativas através do aumento de dados, e então ajustar o modelo para minimizar a distância entre visões similares enquanto maximiza a distância entre visões diferentes.

Apesar do foco no CL, ainda há uma necessidade de analisar quão eficaz o aumento de dados direto pode ser na melhora do desempenho das recomendações. Poucos estudos compararam sistematicamente o aumento de dados tradicional com métodos baseados em CL.

Técnicas de Aumento de Dados

O aumento de dados inclui várias técnicas aplicadas para criar novas sequências a partir das existentes. Essas técnicas são transformações simples que visam preservar os elementos essenciais dos dados originais enquanto oferecem mais exemplos de treinamento.

Algumas das técnicas comuns de aumento de dados incluem:

Inserir Item

Esse método envolve adicionar um novo item a uma sequência existente. Uma posição na sequência é escolhida para inserir um item do pool disponível, resultando em uma sequência aumentada.

Deletar Item

Nesta técnica, um item é selecionado aleatoriamente para remoção da sequência, gerando uma sequência aumentada mais curta.

Substituir Item

Isso envolve substituir um item existente na sequência por um item diferente do pool.

Recortar Item

Aqui, um segmento contínuo da sequência original é selecionado com base em um comprimento especificado, criando uma versão recortada da sequência.

Mascarar Item

Nessa técnica, um item escolhido na sequência é mascarado, ou seja, sua identidade é substituída por um símbolo de espaço reservado.

Reorganizar Item

Esse método embaralha uma parte selecionada da sequência, mas mantém a ordem das outras partes, resultando em uma sequência misturada.

Dividir Subconjunto

Isso envolve criar uma nova sequência que inclui apenas um subconjunto de itens da sequência original com base em uma certa probabilidade para cada item.

Janela Deslizante

Nesta abordagem, uma janela de comprimento fixo desliza pela sequência original para criar vários novos exemplos de treinamento, onde a sequência atual de itens é usada para prever o próximo item da linha.

Questões de Pesquisa

Para entender como diferentes estratégias de aumento funcionam em comparação com os métodos de CL, o estudo foca em algumas perguntas-chave:

  1. Como várias estratégias de aumento de dados se comparam com métodos de recomendação baseados em CL de última geração?
  2. Como esses métodos se comportam em cenários de início frio, onde há poucos dados do usuário disponíveis?
  3. Como eles lidam com itens de popularidade variável?
  4. O tamanho dos aumentos importa para o desempenho?
  5. Como eles se comparam em termos de eficiência computacional?

Configuração Experimental

Os testes foram realizados em quatro conjuntos de dados conhecidos com diversas características. Os conjuntos de dados consistiam em interações de usuários, como classificações ou compras. Eles foram pré-processados para excluir itens e usuários com menos de cinco interações, garantindo dados de qualidade.

Para avaliação, duas métricas principais foram usadas: Recall e NDCG. Essas métricas ajudam a avaliar quão bem as recomendações correspondem às preferências dos usuários. Durante os testes, foi utilizada uma abordagem leave-one-out, onde os últimos dois itens na sequência de cada usuário foram retidos para teste, enquanto o resto foi usado para treinamento.

Modelos de Referência

O estudo avaliou oito estratégias de aumento de dados usando um modelo base chamado SASRec, junto com três métodos de aprendizado contrastivo. Esses métodos de referência são essenciais para entender como as novas estratégias propostas se saem e se oferecem alguma vantagem.

Detalhes da Implementação

Todos os modelos foram implementados usando uma plataforma unificada projetada para sistemas de recomendação. O treinamento envolveu a afinação de hiperparâmetros para um desempenho ótimo, que incluiu o uso de técnicas específicas para aumento de dados e ajustes na arquitetura do modelo.

Conclusões Gerais

Desempenho das Estratégias de Aumento de Dados

O desempenho de cada estratégia de aumento de dados foi analisado individualmente. A maioria das estratégias melhorou o desempenho do modelo base. Entre as estratégias, a abordagem de janela deslizante mostrou as melhorias mais significativas, enquanto técnicas como mascarar e substituir resultaram em pior desempenho devido ao ruído que introduziram.

Algumas estratégias de aumento se saíram melhor do que os métodos de aprendizado contrastivo em certas situações. Isso destaca que o aumento de dados direto pode ser uma ferramenta poderosa por conta própria.

Estratégias Combinadas

Ao explorar combinações de estratégias, foi encontrado que certas combinações, particularmente envolvendo o método da janela deslizante, levaram a um desempenho melhor do que usar a janela deslizante sozinha. Isso indicou que poderia haver sinergias entre diferentes abordagens de aumento de dados.

No entanto, o desempenho das estratégias combinadas com métodos de CL geralmente mostrou melhorias significativas apenas quando pareadas com a estratégia da janela deslizante.

Desempenho em Início Frio

Em cenários onde os dados do usuário eram escassos, as estratégias de aumento superaram consistentemente os métodos de CL, especialmente com menores quantidades de dados de treinamento. Isso sugere que o aumento de dados simples pode melhorar significativamente o desempenho quando se enfrenta limitações de dados.

Impacto da Popularidade do Item

O estudo também avaliou como diferentes métodos se comportaram com itens de popularidade variável. Foi observado que os métodos tendem a se sair melhor para itens populares, mas também houve melhorias notáveis no desempenho para itens menos populares ao usar o método da janela deslizante.

Tamanho dos Aumentos de Dados

Analisando o impacto do tamanho dos aumentos, revelou-se que o desempenho geralmente melhorava com mais aumentos inicialmente. No entanto, o excesso de ruído de muitos aumentos poderia prejudicar o desempenho, especialmente quando usados em conjunto com o método da janela deslizante.

Comparação de Eficiência

Apesar de aumentar o volume de dados de treinamento, os métodos de aumento de dados geralmente exigiram menos tempo de treinamento e memória do que os métodos de CL. Isso demonstra os benefícios computacionais de optar por estratégias de aumento de dados direto em vez de métodos complexos de CL.

Análise e Discussão

Em conclusão, uma avaliação sistemática mostrou que as estratégias de aumento de dados têm o potencial de melhorar significativamente os sistemas de recomendação sequencial. Algumas estratégias podem competir ou até superar métodos populares de aprendizado contrastivo, especialmente em cenários com dados limitados.

As descobertas sugerem que, embora o aprendizado contrastivo seja uma abordagem útil, pode não ser a única ou a rota necessária para enfrentar problemas de escassez de dados em recomendações sequenciais. Usar métodos diretos de aumento de dados apresenta uma alternativa viável.

Direções Futuras

Trabalhos futuros envolverão a ampliação da gama de estratégias de aumento de dados e métodos de aprendizado contrastivo incluídos em tais estudos. Esforços de benchmark mais abrangentes são necessários para validar como várias abordagens podem trabalhar juntas e as razões teóricas por trás de sua eficácia.

Ao continuar investigando e refinando essas técnicas, os pesquisadores podem equipar melhor os sistemas de recomendação sequencial para lidar com as preferências e o engajamento dos usuários, levando a melhores recomendações em vários domínios.

Fonte original

Título: Is Contrastive Learning Necessary? A Study of Data Augmentation vs Contrastive Learning in Sequential Recommendation

Resumo: Sequential recommender systems (SRS) are designed to predict users' future behaviors based on their historical interaction data. Recent research has increasingly utilized contrastive learning (CL) to leverage unsupervised signals to alleviate the data sparsity issue in SRS. In general, CL-based SRS first augments the raw sequential interaction data by using data augmentation strategies and employs a contrastive training scheme to enforce the representations of those sequences from the same raw interaction data to be similar. Despite the growing popularity of CL, data augmentation, as a basic component of CL, has not received sufficient attention. This raises the question: Is it possible to achieve superior recommendation results solely through data augmentation? To answer this question, we benchmark eight widely used data augmentation strategies, as well as state-of-the-art CL-based SRS methods, on four real-world datasets under both warm- and cold-start settings. Intriguingly, the conclusion drawn from our study is that, certain data augmentation strategies can achieve similar or even superior performance compared with some CL-based methods, demonstrating the potential to significantly alleviate the data sparsity issue with fewer computational overhead. We hope that our study can further inspire more fundamental studies on the key functional components of complex CL techniques. Our processed datasets and codes are available at https://github.com/AIM-SE/DA4Rec.

Autores: Peilin Zhou, You-Liang Huang, Yueqi Xie, Jingqi Gao, Shoujin Wang, Jae Boum Kim, Sunghun Kim

Última atualização: 2024-03-17 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2403.11136

Fonte PDF: https://arxiv.org/pdf/2403.11136

Licença: https://creativecommons.org/publicdomain/zero/1.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes