Simple Science

Ciência de ponta explicada de forma simples

# Informática# Recuperação de informação# Computação e linguagem

Aproveitando LLMs pra Melhorar os Rankings de Recomendações

Este artigo analisa como modelos de linguagem grandes podem melhorar os rankings de recomendações.

― 11 min ler


LLMs em Sistemas deLLMs em Sistemas deRecomendaçãoranqueamento melhores.Explorando LLMs para métodos de
Índice

Recentemente, a gente viu que modelos de linguagem grandes (LLMs), tipo o GPT-4, têm se saído bem em várias tarefas, incluindo dar recomendações. Esse artigo dá uma olhada em como esses modelos podem ajudar a classificar Itens em Sistemas de Recomendação.

O Problema da Recomendação

Pra entender como os LLMs podem ajudar, primeiro precisamos pensar no problema de recomendação como um problema de classificação. Aqui, a gente olha pra interações passadas que os usuários tiveram com os itens, tratando essas interações como condições, e os itens que poderiam ser sugeridos como candidatos. Pra guiar os LLMs na hora de fazer as classificações, a gente cria modelos de prompt que incluem o histórico de interações dos usuários, os itens possíveis de recomendar e instruções pra classificar esses itens.

Abordagem da Pesquisa

A gente fez experimentos usando dois conjuntos de dados bem conhecidos na área de recomendações. O foco foi ver quão bem os LLMs conseguiam classificar itens sem precisar de um treinamento extra em dados específicos de recomendação. Descobrimos várias coisas importantes sobre como os LLMs se comportam nessa área.

Principais Descobertas

  1. Os LLMs têm boas habilidades de classificar itens corretamente, às vezes se saindo melhor que métodos tradicionais de recomendação.
  2. Mas, eles podem ter dificuldade em entender a sequência das interações passadas. Por exemplo, eles podem classificar itens de maneira diferente dependendo de como essas interações estão apresentadas.
  3. Existem preconceitos nos LLMs, como preferência por itens que aparecem primeiro na lista ou aqueles que são mais populares. A gente explorou como algumas técnicas de prompt podem ajudar a melhorar o desempenho deles.

Por que os Modelos Tradicionais Têm Dificuldade

Os sistemas de recomendação tradicionais geralmente dependem de dados de comportamento do usuário específicos pra uma determinada tarefa. Isso pode limitar o quão bem esses sistemas entendem o que o usuário realmente quer. Eles costumam se basear apenas em ações anteriores, que não refletem totalmente as intenções do usuário. Além disso, muitos modelos tradicionais são focados em um nicho, faltando conhecimento geral que poderia melhorar as recomendações.

Aumento do Interesse em Modelos de Linguagem

Diante dessas limitações, mais pesquisadores estão se voltando pra modelos de linguagem pré-treinados. Esses modelos buscam capturar melhor as preferências dos usuários expressas em linguagem natural, enquanto também se baseiam em um conhecimento mais amplo do mundo a partir de textos. Embora eles mostrem potencial, muitas vezes é necessário fazer um ajuste fino nesses modelos em tarefas específicas, o que pode limitar a flexibilidade deles.

A Força dos LLMs

Os LLMs se destacam porque conseguem raciocinar de forma lógica, usar conhecimento e generalizar entre tarefas. Alguns estudos sugeriram usar LLMs pra fazer recomendações, e embora os resultados iniciais sejam bons, a gente queria cavar mais fundo nesse potencial.

O Processo de Classificação

No nosso estudo, a gente analisou os LLMs agindo como classificadores em sistemas de recomendação. Tradicionalmente, esses sistemas funcionam em duas etapas principais: geração de candidatos (encontrar itens relevantes) e classificação (ordenar esses itens). Nossa pesquisa se concentrou principalmente na etapa de classificação, já que os LLMs podem ser pesados de rodar quando lidam com um grande número de candidatos.

Formalizamos o processo de recomendação como uma tarefa de classificação, pedindo aos LLMs que classificassem os itens com base nas interações anteriores dos usuários. Através de experimentos controlados, a gente quis responder duas perguntas principais:

  1. Os LLMs conseguem identificar efetivamente as preferências do usuário a partir do histórico de interações?
  2. Os LLMs conseguem usar seu conhecimento pra classificar candidatos gerados por várias estratégias?

Conjuntos de Dados Usados

Pra realizar nossos experimentos, escolhemos dois conjuntos de dados públicos comumente usados em recomendações:

  1. MovieLens-1M: Esse conjunto de dados registra as notas que os usuários dão a filmes.
  2. Amazon Review (categoria Jogos): Esse conjunto contém avaliações de usuários, que tratamos como interações.

A gente fez questão de filtrar usuários e itens com menos de cinco interações e organizou as interações pra refletir a ordem histórica delas.

Avaliação

Usamos uma estratégia leave-one-out pra fins de avaliação. Pra cada histórico de interações de um usuário, o último item foi tratado como a verdade absoluta. Também usamos métricas como NDCG@N, que ajuda a medir quão bem a classificação corresponde às preferências do usuário.

Entendendo o Comportamento do Usuário

Um dos principais focos do nosso estudo foi ver se os LLMs conseguiam entender as sequências das interações dos usuários. Na literatura existente, as interações dos usuários costumam ser modeladas através de métodos especializados. Nossa abordagem foi diferente, já que colocamos essas interações diretamente em um LLM sem que ele tenha sido treinado especificamente pra recomendações.

A gente quis testar se os LLMs poderiam usar essas interações históricas pra fazer recomendações precisas. Como parte dessa análise, observamos quão bem os LLMs reconhecem e utilizam a ordem dessas interações.

Descobertas sobre Reconhecimento de Sequência

Nossas descobertas indicaram que os LLMs têm dificuldade em perceber a importância da ordem das interações dos usuários. Comparando vários modelos, vimos como eles classificavam os itens quando as interações históricas estavam embaralhadas. Modelos tradicionais mostraram quedas significativas de desempenho quando as interações históricas estavam fora de ordem, enquanto os LLMs não mostraram tanta sensibilidade a essa mudança.

Também exploramos como o número de interações incluídas nos prompts afetava a precisão da classificação. Descobrimos que usar interações demais não necessariamente resultava em um desempenho melhor e poderia até ter um impacto negativo em alguns casos.

Observação 1

Os LLMs podem usar interações passadas pra classificar de forma personalizada, mas muitas vezes não consideram a ordem dessas interações.

Melhorando o Desempenho dos LLMs

Dadas as dificuldades com o reconhecimento de ordem, testamos estratégias alternativas de prompt que visavam ajudar os LLMs a perceberem as ordens de interação de maneira mais eficaz. Duas abordagens que foram bem-sucedidas foram:

  1. Prompt focado na recência: Esse método enfatiza a interação mais recente.
  2. Aprendizagem em contexto: Essa técnica envolve dar exemplos dentro do prompt pra guiar os LLMs.

Ambos os métodos resultaram em um desempenho de classificação melhorado.

Observação 2

Prompts especialmente projetados podem ajudar os LLMs a reconhecer a ordem das interações históricas, levando a melhores resultados de classificação.

Classificando Candidatos

A seguir, investigamos quão efetivamente os LLMs conseguiam classificar candidatos. Fizemos testes de benchmarking contra modelos convencionais e métodos de classificação zero-shot existentes.

Os LLMs mostraram habilidades promissoras de classificação zero-shot, superando outros métodos por uma margem significativa. Eles foram particularmente bons em fazer recomendações mesmo sem treinamento específico na tarefa.

Observação 3

Os LLMs se saem bem ao classificar candidatos gerados por múltiplos métodos.

Preconceitos nos LLMs

Embora os LLMs tenham demonstrado fortes capacidades de classificação, notamos que eles podem ser influenciados por preconceitos. Por exemplo, a posição dos itens na lista impactou os resultados das classificações. Itens apareceram mais baixos nas classificações quando foram apresentados mais tarde no prompt.

Além disso, os LLMs tendiam a favorecer itens mais populares. Isso é semelhante aos modelos tradicionais, que também têm viés de popularidade.

Abordando os Preconceitos

Pra lidar com a questão do viés de posição, empregamos um método de bootstrapping onde as classificações dos candidatos foram repetidas várias vezes com listas embaralhadas. Isso permitiu que os LLMs avaliasssem cada item a partir de várias posições, levando a um desempenho de classificação melhorado.

Além disso, descobrimos que quando os LLMs focavam no histórico do usuário, o impacto do viés de popularidade diminuía.

Observação 4

O viés de posição e o viés de popularidade podem influenciar as classificações dos LLMs, mas esses preconceitos podem ser mitigados usando estratégias de prompting e bootstrapping efetivas.

Fatores que Afetam o Desempenho dos LLMs

Na nossa análise final, examinamos quais fatores contribuem para as habilidades de classificação dos LLMs. Em particular, focamos no ajuste de instruções e no tamanho do modelo.

  1. Ajuste de Instruções: Comparamos LLMs que foram ajustados com aqueles que não foram. Os resultados mostraram que modelos ajustados com instrução se saíram melhor, destacando a importância dessa técnica.

  2. Escalonamento do Modelo: Como era de se esperar, modelos maiores tendiam a ter uma classificação melhor. Avaliamos vários tamanhos de modelo pra ver como eles impactavam o desempenho da classificação e confirmamos que modelos maiores resultaram em melhores resultados.

Conclusão

Nesse estudo, a gente analisou como os LLMs podem atuar como modelos de classificação em sistemas de recomendação. Ao formalizar o processo como uma tarefa de classificação e criar prompts em linguagem natural, nosso objetivo foi ver quão bem os LLMs poderiam se sair nesse espaço.

A gente descobriu que os LLMs têm um grande potencial pra tarefas de classificação, mas também enfrentam desafios como reconhecer a ordem das interações e lidar com preconceitos. Nossas descobertas oferecem insights sobre como melhorar as capacidades dos LLMs nessa área, como otimizar o uso de interações históricas e reduzir preconceitos através de melhores estratégias de prompting.

Trabalhos futuros vão envolver o desenvolvimento de abordagens pra enfrentar os principais desafios que permanecem quando se implementa os LLMs como classificadores zero-shot. Além disso, esperamos criar sistemas de recomendação baseados em LLMs que possam ser facilmente ajustados pra recomendações personalizadas com base no comportamento do usuário.

Exemplos de Prompts

Prompt Sequencial

Entrada: Eu assisti os seguintes filmes no passado em ordem:
Agora tem 20 filmes candidatos que eu posso assistir a seguir:
Por favor, classifique esses 20 filmes com base nas chances de que eu gostaria de assistir a seguir, de acordo com meu histórico de assistências.

Saída:

  1. X-Men
  2. Carlito's Way
  3. Ronin
  4. The Edge
    ...

Prompt Focado na Recência

Entrada: Eu assisti os seguintes filmes no passado em ordem:
Agora tem 20 filmes candidatos que eu posso assistir a seguir:
Por favor, classifique esses 20 filmes com base nas chances de que eu gostaria de assistir a seguir, de acordo com meu histórico de assistências.
Note que meu filme assistido mais recentemente é Gladiator.

Saída:

  1. Once Upon a Time in America
  2. Angel Heart
  3. The Truth About Cats & Dogs
    ...

Aprendizagem em Contexto

Entrada: Eu assisti os seguintes filmes no passado em ordem:
Então, se eu te pedir pra recomendar um novo filme pra mim de acordo com meu histórico de assistências, você deve recomendar Shampoo. Agora tem 20 filmes candidatos que eu posso assistir a seguir:
Por favor, classifique esses 20 filmes com base nas chances de que eu gostaria de assistir a seguir, de acordo com meu histórico de assistências.

Saída:

  1. Manon of the Spring (Manon des sources)
  2. Citizen Kane
  3. Grand Hotel
    ...

Exemplos de Conjuntos de Dados

Conjunto de Dados MovieLens-1M

Entrada: Eu assisti os seguintes filmes no passado em ordem:
Agora tem 20 filmes candidatos que eu posso assistir a seguir:
Por favor, classifique esses 20 filmes com base nas chances de que eu gostaria de assistir a seguir, de acordo com meu histórico de assistências.

Saída: 1
5
6
10
...

Conjunto de Dados Amazon Review (Jogos)

Entrada: Eu comprei os seguintes produtos no passado em ordem:
Agora tem 20 produtos candidatos que eu posso considerar comprar a seguir:
Por favor, classifique esses 20 produtos com base nas chances de que eu gostaria de comprar a seguir, de acordo com meus registros de compras dados.

Saída: 1
5
6
10
...

Fonte original

Título: Large Language Models are Zero-Shot Rankers for Recommender Systems

Resumo: Recently, large language models (LLMs) (e.g., GPT-4) have demonstrated impressive general-purpose task-solving abilities, including the potential to approach recommendation tasks. Along this line of research, this work aims to investigate the capacity of LLMs that act as the ranking model for recommender systems. We first formalize the recommendation problem as a conditional ranking task, considering sequential interaction histories as conditions and the items retrieved by other candidate generation models as candidates. To solve the ranking task by LLMs, we carefully design the prompting template and conduct extensive experiments on two widely-used datasets. We show that LLMs have promising zero-shot ranking abilities but (1) struggle to perceive the order of historical interactions, and (2) can be biased by popularity or item positions in the prompts. We demonstrate that these issues can be alleviated using specially designed prompting and bootstrapping strategies. Equipped with these insights, zero-shot LLMs can even challenge conventional recommendation models when ranking candidates are retrieved by multiple candidate generators. The code and processed datasets are available at https://github.com/RUCAIBox/LLMRank.

Autores: Yupeng Hou, Junjie Zhang, Zihan Lin, Hongyu Lu, Ruobing Xie, Julian McAuley, Wayne Xin Zhao

Última atualização: 2024-01-23 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2305.08845

Fonte PDF: https://arxiv.org/pdf/2305.08845

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes