Avanço dos Sistemas de Recomendação com Deep Learning

Índice

O Desafio dos Problemas de Cold-Start
Nossa Solução: Fatoração de Matriz Aprimorada
Aprimorando o Modelo de Fatoração de Matriz
Testando Nosso Modelo
Entendendo os Conjuntos de Dados
Avaliação e Métricas
Visão Geral do Desempenho
Conclusão
Fonte original
Ligações de referência

Nos últimos anos, o aprendizado profundo teve um impacto forte em várias áreas, como reconhecimento de imagens, entendimento de fala e processamento de linguagem. Com esse sucesso, muitos pesquisadores estão investigando como o aprendizado profundo pode melhorar os sistemas de recomendação, que ajudam as pessoas a encontrar o que querem entre um monte de conteúdo online. Métodos tradicionais para esses sistemas funcionaram bem ao captar preferências com base em interações passadas entre usuários e itens, mas muitas vezes perdem detalhes importantes sobre os usuários e os próprios itens. Isso pode causar problemas, especialmente para itens menos populares ou novos usuários.

O Desafio dos Problemas de Cold-Start

Um grande desafio nos sistemas de recomendação é o que chamamos de problema de cold-start. Isso acontece quando não há dados suficientes para fazer boas recomendações, seja porque um novo usuário acabou de entrar na plataforma ou porque um novo item foi adicionado. Modelos tradicionais podem ter dificuldades nessas situações, pois dependem muito das interações entre usuários e itens. Acreditamos que, ao usar as características e qualidades tanto dos usuários quanto dos itens, podemos criar uma abordagem melhor para recomendações.

Nossa Solução: Fatoração de Matriz Aprimorada

Desenvolvemos um novo tipo de modelo de recomendação que leva em conta não apenas as interações entre usuários e itens, mas também os atributos ligados a ambos. Nosso modelo usa um método chamado fatoração de matriz, que divide os dados de interação entre usuários e itens em partes mais simples e gerenciáveis. Ao fazer isso, nosso modelo consegue aprender a fornecer recomendações mais precisas, especialmente em situações onde os dados são limitados.

Uma das características principais do nosso modelo é o uso de embeddings compartilhados de usuários. Isso significa que, em vez de começar com palpites aleatórios ou dados de usuários mal aprendidos, nosso modelo usa uma representação comum de um usuário que pode apoiar recomendações, especialmente para novos usuários. Isso ajuda a estabilizar e melhorar a qualidade das recomendações fornecidas a esses usuários.

Aprimorando o Modelo de Fatoração de Matriz

Nós melhoramos ainda mais o modelo tradicional de fatoração de matriz incorporando interações entre atributos. Isso significa que as características de cada usuário podem interagir com os atributos dos itens e vice-versa. Assim, conseguimos extrair informações mais valiosas dos dados existentes.

Por exemplo, se temos um usuário que gosta de filmes de ação e sabemos também o gênero de um novo filme, podemos fazer melhores recomendações ao combinar esses detalhes. Essa abordagem captura tanto os traços individuais dos usuários quanto as conexões entre usuários e itens, resultando em uma imagem mais completa de preferências.

Testando Nosso Modelo

Para avaliar a eficácia do nosso modelo, realizamos experimentos usando dois conjuntos de dados bem conhecidos: MovieLens e Pinterest. Esses conjuntos de dados são populares porque fornecem inúmeras interações entre usuários e itens e uma variedade de atributos. Nossos testes mostraram que nosso modelo superou consistentemente os métodos existentes, particularmente em casos onde os conjuntos de dados tinham informações limitadas.

Entendendo os Conjuntos de Dados

Conjunto de Dados MovieLens

No conjunto de dados MovieLens, usamos uma versão que inclui um milhão de classificações, garantindo que cada usuário tenha avaliado pelo menos 20 filmes. Neste conjunto, as classificações são transformadas de modo que cada classificação de um usuário corresponda a um rótulo para um filme. Além disso, selecionamos aleatoriamente 99 entradas não observadas como amostras negativas, ou seja, que não receberam classificações.

Esse conjunto de dados também inclui metadados para usuários, como gênero, idade e ocupação. Esses detalhes servem como atributos do usuário no nosso modelo. Para os filmes, como eles podem pertencer a vários gêneros, cada gênero é tratado como um atributo separado.

Conjunto de Dados Pinterest

O conjunto de dados Pinterest é vasto e tem muitos usuários, mas muitos deles apenas fixaram alguns itens. Para tornar nossa avaliação mais gerenciável, filtramos o conjunto para incluir apenas usuários com pelo menos dez pins. Semelhante ao MovieLens, rotulamos 99 entradas não observadas como amostras negativas.

Esse conjunto de dados dá uma visão sobre as interações dos usuários com vários pins e categorias de página. Agrupamos os usuários com base no número de pins e simplificamos as numerosas categorias em grupos principais para uma melhor análise.

Avaliação e Métricas

Usamos um método de leave-one-out para avaliação. Para cada usuário, escolhemos aleatoriamente uma de suas interações e a combinamos com as 99 amostras negativas para criar um conjunto de teste. Classificamos o item de teste entre 100 e avaliamos o desempenho usando duas métricas principais: Taxa de Acerto (HR@10) e Ganho Cumulativo Normalizado Descontado (NDCG@10). A métrica HR verifica se o item recomendado está na lista dos dez primeiros, enquanto a NDCG atribui notas mais altas para itens classificados mais acima na lista.

Visão Geral do Desempenho

Os resultados dos nossos experimentos indicam claramente que nosso modelo se sai melhor do que os modelos existentes, especialmente em situações de dados escassos. Como observamos tanto nos conjuntos de dados MovieLens quanto Pinterest, nosso modelo produziu resultados fortes de maneira consistente.

À medida que aumentamos a complexidade da nossa fatoração de matriz, o desempenho do nosso modelo melhorou, especialmente em relação à métrica HR@10. Isso era esperado, pois nosso modelo foi projetado para fazer uso completo tanto das interações entre usuários e itens quanto de seus atributos inerentes.

Curiosamente, um modelo existente conhecido como CF Profundo Consciente de Atributos (AA Deep CF) não teve um desempenho tão bom quanto o esperado. Isso pode ser devido à camada de pooling que ele utiliza, que pode acabar descartando detalhes importantes, resultando em recomendações menos eficazes. Além disso, o modelo AA Deep CF foi criado principalmente para redes sociais e tarefas de recomendação de viagem, o que pode não se alinhar com as necessidades dos nossos conjuntos de dados.

Conclusão

Nossa pesquisa destaca avanços significativos no campo dos sistemas de recomendação. A introdução de um embedding de usuário compartilhado oferece uma solução robusta para novos usuários que enfrentam problemas de cold-start. Além disso, a abordagem refinada de fatoração de matriz que inclui interações entre atributos permite um reconhecimento mais profundo das relações entre usuários e itens, aproveitando ao máximo todas as informações disponíveis.

No geral, essas melhorias marcam passos importantes rumo a recomendações mais precisas e confiáveis. Isso abre portas para futuras pesquisas nesse domínio para explorar modelos e estratégias ainda mais eficazes.

Avanço dos Sistemas de Recomendação com Deep Learning

Novo modelo melhora as recomendações, resolvendo problemas de cold-start e aproveitando as características de usuários e itens.

O Desafio dos Problemas de Cold-Start

Nossa Solução: Fatoração de Matriz Aprimorada

Aprimorando o Modelo de Fatoração de Matriz

Testando Nosso Modelo

Entendendo os Conjuntos de Dados

Conjunto de Dados MovieLens

Conjunto de Dados Pinterest

Avaliação e Métricas

Visão Geral do Desempenho

Conclusão

Ligações de referência

Tópicos referenciados

Avanço dos Sistemas de Recomendação com Deep Learning

Novo modelo melhora as recomendações, resolvendo problemas de cold-start e aproveitando as características de usuários e itens.

#O Desafio dos Problemas de Cold-Start

#Nossa Solução: Fatoração de Matriz Aprimorada

#Aprimorando o Modelo de Fatoração de Matriz

#Testando Nosso Modelo

#Entendendo os Conjuntos de Dados

#Conjunto de Dados MovieLens

#Conjunto de Dados Pinterest

#Avaliação e Métricas

#Visão Geral do Desempenho

#Conclusão

Ligações de referência

Tópicos referenciados

O Desafio dos Problemas de Cold-Start

Nossa Solução: Fatoração de Matriz Aprimorada

Aprimorando o Modelo de Fatoração de Matriz

Testando Nosso Modelo

Entendendo os Conjuntos de Dados

Conjunto de Dados MovieLens

Conjunto de Dados Pinterest

Avaliação e Métricas

Visão Geral do Desempenho

Conclusão