Simple Science

Ciência de ponta explicada de forma simples

# Informática# Recuperação de informação# Inteligência Artificial# Aprendizagem de máquinas

Estratégias de Benchmarking para Sistemas de Recomendação

Uma nova maneira de avaliar e comparar algoritmos de RecSys usando conjuntos de dados diversos.

― 19 min ler


Métodos de Avaliação deMétodos de Avaliação deSistemas de Recomendaçãoalgoritmos de RecSys de forma eficaz.Novos benchmarks para comparar
Índice

No campo em rápida mudança dos Sistemas de Recomendação (RecSys), muitos novos Algoritmos prometem alto desempenho com base em testes realizados em alguns Conjuntos de dados selecionados. Porém, esse método pode não dar uma visão completa de quão bem esses algoritmos realmente funcionam, já que a natureza dos conjuntos de dados pode influenciar bastante os resultados.

Pra resolver esse problema, a gente apresenta uma nova forma de avaliar os algoritmos de RecSys. Esse método promove comparações justas e melhora as práticas de Avaliação. Usando uma ampla variedade de conjuntos de dados abertos, incluindo dois que são novidades e discutidos neste documento, a gente avalia algoritmos de filtragem colaborativa com base em diferentes métricas. Isso nos permite analisar como as características dos conjuntos de dados afetam o desempenho dos algoritmos e considerar a combinação de resultados de vários conjuntos em um único ranking.

Através de testes extensivos, confirmamos que nossa metodologia é confiável mesmo com diferentes conjuntos de dados. Ela oferece uma abordagem equilibrada para avaliar algoritmos de RecSys, trazendo insights úteis pra futuras pesquisas.

Importância dos Sistemas de Recomendação

Os Sistemas de Recomendação têm um papel crucial em personalizar as experiências dos usuários em várias plataformas online. Seja sugerindo filmes em serviços de streaming, recomendando produtos para compra ou agrupando feeds de notícias personalizados, o RecSys é uma tecnologia chave em machine learning. A influência deles impulsiona esforços contínuos tanto na pesquisa quanto na indústria, levando ao desenvolvimento de numerosos algoritmos de RecSys todo ano.

À medida que o número de algoritmos disponíveis continua a crescer, há uma necessidade de ferramentas que possibilitem uma avaliação clara. Os pesquisadores visam avaliar novos métodos ao lado dos já estabelecidos, mas enquanto várias estruturas têm sucesso em avaliar algoritmos em conjuntos de dados específicos, encontrar os modelos com melhor desempenho em diferentes problemas ainda é desafiador. Os resultados podem variar bastante dependendo do conjunto de dados usado, com alguns algoritmos se saindo bem em um contexto, mas mal em outro. Essa inconsistência pode levar a conclusões enganosas nos estudos de avaliação e destaca a necessidade de comparações entre múltiplos conjuntos de dados com características variadas.

Realizar avaliações extensivas com muitos conjuntos de dados pode exigir consideráveis recursos computacionais, o que pode prejudicar o meio ambiente e limitar oportunidades para laboratórios de pesquisa menores. Quando os pesquisadores buscam algoritmos que funcionem bem em muitas tarefas de recomendação, as empresas precisam avaliar o desempenho em conjuntos de dados que refletem as características de sua própria indústria para encurtar o tempo necessário para produzir um RecSys utilizável.

Comparado a outras áreas de machine learning, como análise de séries temporais e processamento de linguagem natural (NLP), o campo de RecSys carece de um método bem aceito para agregar desempenho de múltiplos conjuntos de dados. Também há pouca pesquisa focada em comparar diferentes conjuntos de dados de recomendação, entender seus efeitos no desempenho dos algoritmos de RecSys e encontrar conjuntos de dados com características semelhantes.

Pra melhorar a situação, desenvolvemos uma metodologia de Benchmarking detalhada que classifica métodos de RecSys com base no desempenho em muitos problemas, usando avaliação offline e superando problemas presentes nas práticas atuais. Nossa abordagem determina se um modelo top específico pode ter um bom desempenho de forma universal ou em áreas específicas definidas pelas características dos conjuntos de dados.

Nossas Contribuições

A gente fornece um método de benchmarking que foca no campo de RecSys, apresenta um protocolo de avaliação claro e permite a rápida integração de novos algoritmos. Pra garantir que nossos resultados sejam reprodutíveis, todo o código e os conjuntos de dados usados na nossa pesquisa estão disponíveis publicamente.

No nosso processo de benchmarking, utilizamos 30 conjuntos de dados públicos que cobrem uma variedade de domínios diferentes. Dois desses conjuntos de dados são novos, relacionados à música e ao comércio eletrônico, e estarão disponíveis para download após um processo de revisão por pares. Também analisamos vários métodos de agregação de resultados e testamos sua confiabilidade pra encontrar a abordagem mais adequada pra fazer benchmarking de RecSys usando múltiplos conjuntos de dados.

Além disso, estudamos como características específicas dos conjuntos de dados se relacionam com a qualidade da recomendação e identificamos grupos de conjuntos de dados que apresentam características semelhantes. Criamos um procedimento de comparação eficiente que usa apenas seis conjuntos de dados, mas ainda assim fornece um ranking comparável, baseado numa seleção cuidadosa dos conjuntos de dados.

Finalmente, identificamos os algoritmos com melhor desempenho de um grupo de 11 métodos comumente usados, aplicando estratégias sólidas de agregação em diferentes cenários.

Trabalhos Relacionados

A avaliação de RecSys continua sendo uma área chave de pesquisa. Métodos tradicionais, como modelos baseados em vizinhança e fatoração de matrizes, ainda servem como referências confiáveis. No entanto, as redes neurais profundas progrediram bastante no campo, criando uma abundância de novas abordagens.

Muitas bibliotecas de código aberto agora fornecem implementações de algoritmos de recomendação populares. Estruturas notáveis como DeepRec, Implicit, LightFM, NeuRec, RecBole, RecPack e Replay atendem a várias necessidades de aplicação.

A avaliação offline é crítica para a pesquisa de RecSys, já que permite uma avaliação confiável e econômica do desempenho dos algoritmos. Esse método é especialmente adequado para pesquisadores que estão desenvolvendo novos modelos. Dada a variedade no campo, métodos de avaliação rigorosos e reprodutíveis são essenciais.

Um número de estudos, como Elliot, Recbole e DaisyRec, introduziram estruturas de avaliação abrangentes com o objetivo de reproduzir e fazer benchmarking de modelos de recomendação. Essas estruturas oferecem opções para filtragem de dados, divisão, avaliação de métricas e ajuste de hiperparâmetros em modelos de recomendação populares. O framework do Elliot até inclui testes estatísticos para uma análise robusta dos resultados finais, adicionando profundidade ao processo de avaliação.

Conjuntos de dados públicos de uma variedade de domínios estão disponíveis para construir e avaliar sistemas de recomendação. Pesquisas mostram que a maioria dos estudos normalmente depende de um punhado de conjuntos de dados, sendo que a escolha e o pré-processamento impactam significativamente os resultados da avaliação. Diferentes técnicas de filtragem podem alterar as características dos conjuntos de dados, levando a variações nos rankings de desempenho.

Em um estudo, pesquisadores investigaram como as propriedades dos dados afetam a precisão das recomendações, a equidade e a vulnerabilidade à manipulação, sublinhando a importância de entender os dados pra melhorar o desempenho do sistema. As descobertas confirmam que ter conjuntos de dados diversos na avaliação de RecSys é vital, já que a seleção do conjunto de dados altera notavelmente os resultados da avaliação.

Desafios e Métodos Emergentes na Avaliação de RecSys

Quando um novo método de machine learning é proposto, é importante comparar seu desempenho com métodos existentes em uma ampla gama de tarefas. No entanto, tirar conclusões sobre qual algoritmo é melhor pode ser complicado ao se olhar para resultados de múltiplos conjuntos de dados.

Muitas técnicas de agregação foram desenvolvidas pra condensar os resultados em resumos claros. Um método simples é a agregação média, que assume uniformidade entre as métricas de tarefa. Isso pode, no entanto, resultar em avaliações tendenciosas, especialmente quando as métricas diferem significativamente.

Os perfis de desempenho de Dolan-Moré, que foram inicialmente projetados pra benchmarking de algoritmos de otimização, também podem ser aplicados pra avaliar a eficácia de algoritmos de machine learning em múltiplos problemas. Ao contrário da agregação média, as curvas de Dolan-Moré levam em conta a distribuição dos valores de desempenho, mostrando com que frequência e de que forma um algoritmo se destaca sobre os outros.

O diagrama de Diferença Crítica (CD) é comumente usado pra comparar algoritmos em várias tarefas. Esse método oferece comparações em grupo e par a par com base na média de classificação do desempenho relativo de cada tarefa.

VOTE'N'RANK é outro sistema proposto pra classificação em benchmarks multitarefa, enraizado na teoria da escolha social. Essa estrutura usa regras de pontuação e relação de maioria como Pluralidade, Dowdall, Borda, Copeland e Minimax pra fornecer uma avaliação abrangente.

O benchmarking é crucial em machine learning, necessário pra acompanhar o progresso através de conjuntos de dados, métricas e práticas de agregação pra medir o desempenho do sistema. Esses benchmarks ajudam a comparar novos algoritmos com os estabelecidos pra determinar quais modelos são mais eficazes pra uso prático.

Os benchmarks de desempenho são importantes em várias áreas. Por exemplo, o ILSVRC (ImageNet Large Scale Visual Recognition Challenge) avalia classificação e detecção de objetos com grandes conjuntos de dados de imagens e métricas únicas pra cada tarefa. Em NLP, benchmarks como GLUE e seus derivados avaliam modelos em várias tarefas e os classificam com base em pontuações médias.

Existem iniciativas como AMLB no domínio do AutoML que focam em avaliações multitarefa através de classificação média. Um projeto de pesquisa oferece uma avaliação detalhada e reprodutível de dez algoritmos de filtragem colaborativa, usando um método de classificação pra combinar resultados de precisão de vários conjuntos de dados e métricas. Enquanto esse método oferece insights úteis, ele requer uma interpretação cuidadosa devido a preconceitos que favorecem algoritmos que se saem bem em métricas correlacionadas.

Benchmarking para Algoritmos de RecSys

Nosso principal objetivo é apresentar um ranking confiável de algoritmos. Queremos criar uma lista curada de conjuntos de dados que permita fácil comparação entre os modelos, junto com estratégias de agregação que ofereçam rankings fundamentados com base em diferentes critérios.

Até onde sabemos, o BARS é a iniciativa de benchmarking mais avançada especificamente focada em RecSys. No entanto, o BARS tem limitações. Ele se restringe a apenas três conjuntos de dados para o único desafio de recomendações top-N, produzindo tabelas de líderes separadas para cada conjunto de dados. Esse método, que carece de um mecanismo de pontuação de múltiplos conjuntos de dados, torna difícil reconhecer modelos realmente flexíveis e universais. Abordar essa lacuna poderia fornecer insights significativos para os pesquisadores.

Nosso objetivo é apresentar um método de benchmarking sólido e eficiente voltado para o campo de RecSys. Organizamos nossos experimentos pra alinhar com a avaliação online, imitando situações de recomendação em tempo real, enquanto garantimos a reprodutibilidade de nossos resultados. Reunimos um conjunto diversificado de conjuntos de dados de código aberto e estabelecemos um pipeline completo que inclui etapas pré-definidas.

Também integramos 11 algoritmos de RecSys de várias bibliotecas e repositórios de código aberto. Esse pipeline serve a dois propósitos: simplificar o processo de avaliação e melhorar a comparabilidade dos resultados entre diferentes algoritmos e conjuntos de dados.

Conjuntos de Dados e Pré-processamento

No nosso processo de benchmarking, usamos 30 conjuntos de dados públicos que abrangem sete áreas diferentes. Esses conjuntos de dados cobrem uma ampla gama de negócios, incluindo e-commerce, redes sociais e entretenimento. Junto com 28 conjuntos de dados estabelecidos, apresentamos dois novos conjuntos, Zvuk e SMM.

Sistemas de recomendação baseados em feedback implícito estão se tornando cada vez mais populares, principalmente devido à falta de informações explícitas de avaliação em muitas aplicações. Sendo assim, conjuntos de dados que originalmente incluem avaliações de itens são frequentemente convertidos em sinais binários, que é a abordagem que também seguimos em nossas avaliações. Definimos um parâmetro de limiar específico pra filtrar interações abaixo desse ponto e removemos essas como feedback negativo.

A maioria dos pesquisadores lida com a esparsidade em conjuntos de dados, onde os usuários interagem com um número limitado de itens. Como parte da nossa avaliação, filtramos usuários e itens inativos. Usamos uma técnica de filtragem que garante que cada usuário tenha um mínimo de cinco interações, enquanto alguns itens podem ter menos.

Modelos de Recomendação

As estruturas atuais de recomendação facilitam a integração de modelos de base amplamente utilizados e versões mais novas. Aproveitamos as implementações existentes de algoritmos populares pra desenvolver um pipeline de avaliação que lida com filtragem de conjuntos de dados, divisão de dados, cálculo de métricas e otimização de hiperparâmetros.

Selecionamos várias categorias de algoritmos pra nossa análise, incluindo métodos de base não personalizados, modelos baseados em vizinhança, modelos de fatoração de matrizes, modelos lineares e modelos neurais.

Nossa seleção inclui várias abordagens recentes, e novos algoritmos podem ser adicionados de diferentes fontes, expandindo as capacidades do benchmark.

Configurações de Avaliação

Divisão de Dados

Pra dividir os dados em conjuntos de treinamento e teste, buscamos se assemelhar muito às condições de implantação. No paradigma de recomendação top-N, o principal desafio é prever as preferências dos usuários com base em interações passadas. Assim, os dados de treinamento devem preceder os dados de teste em ordem cronológica.

Adotamos uma estratégia de divisão temporal global com proporções específicas para os conjuntos de treinamento, validação e teste. Após a divisão, usuários e itens em cold-start, que não têm registros no conjunto de treinamento, são excluídos.

Amostragem Negativa

Na avaliação de RecSys, amostragem negativa significa prever apenas um número limitado de itens não relevantes e itens relevantes conhecidos, em vez de pontuar todos os itens na lista. Itens não relevantes são escolhidos de um pool de candidatos. Embora estratégias de amostragem como Uniform Sampler sejam usadas, sua confiabilidade tem sido questionada. Nossa avaliação testa todos os itens não observados.

Métricas de Avaliação

Uma interpretação clara das métricas de qualidade populares no campo é crucial, já que métricas complexas muitas vezes levam a interpretações variadas. Por isso, fornecemos um protocolo de avaliação detalhado pra clareza e reprodutibilidade.

Definimos e calculamos várias métricas de qualidade padrão, incluindo Precision@k, Recall@k, nDCG@k, MAP@k, HitRate@k e MRR@k. Também incorporamos métricas além da precisão como Coverage@k, Diversity@k e Novelty@k.

Ajuste de Hiperparâmetros

A otimização de hiperparâmetros é vital pra garantir o melhor desempenho dos algoritmos de machine learning e um benchmarking confiável. Nossas descobertas mostram que a maioria das bases de RecSys pode alcançar um desempenho significativo nas primeiras iterações usando otimização bayesiana. Assim, usamos a estrutura Optuna com o algoritmo Tree of Parzen Estimators para o ajuste.

Após determinar os hiperparâmetros ótimos, realizamos o treinamento final nos conjuntos de treinamento e validação combinados pra incorporar todas as interações até o timestamp do teste.

Abordagem de Comparação de Métricas

No nosso benchmarking, coletamos métricas de vários conjuntos de dados e aplicamos múltiplos métodos de comparação pra analisar os dados. Depois de coletar as métricas de avaliação, precisamos de uma forma de classificar os algoritmos com base nas pontuações de desempenho. Nosso pipeline usa métodos estabelecidos pra agregar o desempenho em uma única pontuação de ranking em vários conjuntos de dados.

Os agregadores incluem médias aritméticas, geométricas e harmônicas, junto com diagramas de CD que enfatizam as médias de classificação, curvas de Dolan-Moré que mostram os valores AUC e algoritmos baseados em princípios da teoria da escolha social.

Experimentos e Resultados

Nossos experimentos começam com a coleta de métricas de desempenho pra avaliar algoritmos de recomendação. Essas incluem Precisão de Preferências do Usuário, Qualidade da Classificação e métricas Além da Precisão. Por exemplo, no conjunto de dados Movielens-1m, métricas individuais são calculadas para vários valores de k.

LightFM se destaca ao alcançar o melhor resultado para uma dessas métricas. Nossa análise cobre uma ampla gama já que avaliamos múltiplos algoritmos em vários conjuntos de dados.

Geramos rankings usando essas métricas e calculamos as pontuações de correlação de Spearman para cada conjunto de dados. As médias das pontuações de correlação de ranking são consolidadas em um mapa de calor, retratando as relações entre todos os pares de métricas.

O mapa de calor mostra que métricas de precisão e de ranking correlacionam-se fortemente, enquanto métricas além da precisão demonstram correlações mais fracas, enfatizando que elas não refletem de modo direto a qualidade da recomendação.

Finalmente, concluímos que nDCG tende a correlacionar-se mais com métricas de precisão e de ranking, reforçando seu uso em benchmarking e durante a otimização de hiperparâmetros.

Análise Comparativa dos Métodos de Agregação de Métricas

Esta seção foca em vários métodos pra agregar métricas derivadas de diferentes conjuntos de dados. Detalhamos as abordagens de agregação e analisamos como elas classificam modelos de RecSys.

Dadas as especificidades de RecSys, identificamos requisitos chave pra um método de classificação: ele deve classificar com base no desempenho, considerar os valores das métricas e suas diferenças relativas, fornecer insights claros sobre comparações de modelos, definir a significância das diferenças de desempenho e permanecer robusto contra influências manipulativas.

Consideramos vários métodos de agregação, incluindo médias de classificação, agregações médias, Área Sob a Curva de Dolan-Moré, e regras baseadas em relação de maioria como Copeland e Minimax.

O ranking dos métodos de RecSys varia com base na estratégia de agregação escolhida. Nossas descobertas revelam que EASE consistentemente se destaca como o método de melhor desempenho na maioria das agregações. Outros métodos mostram menos estabilidade, indicando a necessidade de uma interpretação cuidadosa ao examinar rankings.

Confiabilidade dos Rankings

Pra garantir um método de agregação confiável para benchmarking, ele deve demonstrar estabilidade sob diferentes condições, incluindo variações em conjuntos de dados e algoritmos. Avaliamos como mudanças nas métricas de entrada influenciam os rankings finais usando o coeficiente de correlação de Spearman.

Os resultados revelam que, exceto pelo Minimax, a maioria das agregações exibe um comportamento estável mesmo quando conjuntos de dados são descartados. Em particular, a Média Geométrica, a Média Harmônica e o DM LBO classificam-se de forma consistente, provando serem eficazes em várias condições.

Além disso, exploramos como usar apenas alguns conjuntos de dados pode afetar os ranks. Aqui, os métodos de agregação mostram estabilidade diminuída, com alguns lutando pra manter resultados consistentes. Nessas situações, os métodos de Média de Classificação e Copeland se saem melhor.

Características dos Conjuntos de Dados e Seu Impacto nas Recomendações

Além do benchmarking de desempenho, também investigamos a ligação entre características específicas dos conjuntos de dados e a qualidade da recomendação. Usando propriedades da matriz de interação usuário-item, podemos analisar diferentes aspectos, incluindo tamanho, forma e densidade dos conjuntos de dados, junto com contagens de interação de usuários e itens.

Observamos que conjuntos de dados com alto viés de popularidade e densidade tendem a simplificar as tarefas de previsão, enquanto distribuições long-tail apresentam um maior desafio para modelos de recomendação. Valores moderados de informação mútua sugerem um impacto prático dessas características no desempenho do modelo.

Selecionando Conjuntos de Dados para Benchmarking

Usar 30 conjuntos de dados públicos para benchmarking oferece uma ampla gama de domínios e características de dados, mas não é computacionalmente eficiente. Portanto, podemos selecionar conjuntos de dados pertencentes a grupos semelhantes pra reduzir esse fardo, enquanto ainda preservamos a variabilidade.

Empregamos a abordagem KMeans pra agrupar conjuntos de dados com base em suas características. Escolher conjuntos de dados que estão próximos aos centros dos grupos nos ajuda a minimizar recursos computacionais enquanto garante um benchmarking robusto.

Conclusão

Este artigo introduz um novo sistema de benchmarking para sistemas de recomendação que incorpora um pipeline completo, utiliza múltiplos conjuntos de dados, ajusta hiperparâmetros e aplica procedimentos de agregação para métricas entre diferentes conjuntos de dados. Nossa metodologia é interpretável e robusta para métricas diversas.

Entre as comparações de métodos, EASE se destaca como o vencedor claro, apresentando desempenho consistentemente melhor com relação a várias estratégias de agregação. Outros métodos mostram resultados interessantes em áreas específicas identificadas através de nossa clusterização.

Nossa pesquisa oferece insights sobre a estabilidade e eficiência dos rankings, fornecendo conjuntos de dados valiosos que podem apoiar tanto profissionais na seleção de métodos quanto pesquisadores na avaliação de novas ideias.

Focando na importância da seleção e características dos dados, assim como estabelecendo um processo mais eficiente para benchmarking, buscamos avançar o estudo de sistemas de recomendação.

Fonte original

Título: From Variability to Stability: Advancing RecSys Benchmarking Practices

Resumo: In the rapidly evolving domain of Recommender Systems (RecSys), new algorithms frequently claim state-of-the-art performance based on evaluations over a limited set of arbitrarily selected datasets. However, this approach may fail to holistically reflect their effectiveness due to the significant impact of dataset characteristics on algorithm performance. Addressing this deficiency, this paper introduces a novel benchmarking methodology to facilitate a fair and robust comparison of RecSys algorithms, thereby advancing evaluation practices. By utilizing a diverse set of $30$ open datasets, including two introduced in this work, and evaluating $11$ collaborative filtering algorithms across $9$ metrics, we critically examine the influence of dataset characteristics on algorithm performance. We further investigate the feasibility of aggregating outcomes from multiple datasets into a unified ranking. Through rigorous experimental analysis, we validate the reliability of our methodology under the variability of datasets, offering a benchmarking strategy that balances quality and computational demands. This methodology enables a fair yet effective means of evaluating RecSys algorithms, providing valuable guidance for future research endeavors.

Autores: Valeriy Shevchenko, Nikita Belousov, Alexey Vasilev, Vladimir Zholobov, Artyom Sosedka, Natalia Semenova, Anna Volodkevich, Andrey Savchenko, Alexey Zaytsev

Última atualização: 2024-08-27 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2402.09766

Fonte PDF: https://arxiv.org/pdf/2402.09766

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes