Simple Science

Ciência de ponta explicada de forma simples

# Informática# Recuperação de informação# Aprendizagem de máquinas

Avaliação de Sistemas de Recomendação: Conectando Desempenho Offline e Online

Esse estudo analisa como as métricas de avaliação offline preveem o sucesso online para sistemas de recomendação.

― 8 min ler


Avaliação de Sistemas deAvaliação de Sistemas deRecomendaçãosucesso online.Analisando métricas offline para o
Índice

Sistemas de recomendação ajudam os usuários a encontrar itens ou conteúdos que podem interessá-los, tipo filmes, produtos ou músicas. Avaliar quão bem esses sistemas funcionam não é fácil. Os pesquisadores costumam usar métodos offline, analisando dados coletados de usuários no passado. Mas essas avaliações offline podem ser enganosas, já que nem sempre preveem como o sistema vai se sair em situações reais. O objetivo desse trabalho é comparar como métricas offline podem prever o desempenho online, focando em métodos que consideram a Popularidade dos itens e o timing das interações dos usuários.

Desafio de Avaliar Sistemas de Recomendação

Avaliar sistemas de recomendação pode ser complicado. Diferentes métricas mostram diferentes aspectos de como um sistema funciona. Por exemplo, uma métrica pode medir como o sistema prevê as preferências dos usuários, enquanto outra pode medir quão efetivamente ele recupera itens que o usuário provavelmente vai querer. Isso cria um desafio para identificar quais métricas realmente refletem o desempenho do sistema.

A maioria das pesquisas depende de avaliações offline. Nesse método, os sistemas são treinados com uma parte dos dados e depois testados com outra. Métricas comuns usadas nessa Avaliação Offline incluem precisão e recall, que indicam quão precisas são as recomendações.

No entanto, avaliações offline padrão podem ter problemas importantes. A forma como os usuários interagem com os itens não é uniforme. Alguns itens recebem mais atenção só porque são mostrados para mais usuários. Além disso, avaliações offline podem não considerar que sistemas do mundo real precisam fazer previsões com base nos dados de usuários passados. Isso torna difícil medir com precisão quão bem um sistema vai se sair ao vivo.

Alguns pesquisadores sugeriram métodos para resolver esses problemas. Por exemplo, eles propõem dar mais peso a itens menos populares, assim a avaliação não fica tendenciosa em relação às escolhas populares. Outros desenvolveram métodos de avaliação que consideram o tempo, focando nas interações mais recentes dos usuários. Mas, mesmo assim, muitos desses métodos ainda não refletem com precisão como os sistemas de recomendação operam em um ambiente real.

A Importância da Avaliação em Situações Reais

A melhor técnica de avaliação deve olhar para o sistema como um todo e considerar metas práticas, tipo cliques em itens, itens comprados ou quanto tempo os usuários ficam engajados. Porém, muitas métricas usadas offline não funcionam bem em um contexto real porque o ambiente está sempre mudando. Também, os resultados podem variar já que muitas vezes dependem do comportamento dos usuários ou de pesquisas pedindo feedback sobre as recomendações.

Esse trabalho busca preencher a lacuna entre avaliações offline e online, investigando como métricas offline podem prever melhor o sucesso online. É crucial para sistemas de recomendação do mundo real que as métricas offline forneçam insights confiáveis sobre o desempenho online. Se um sistema vai bem de acordo com métricas offline, queremos saber se ele também vai se sair bem quando usado por usuários reais.

Objetivos da Pesquisa

Um dos objetivos é ver se um sistema de recomendação que tem uma classificação alta em avaliações offline também se sai bem online. Especificamente, estamos checando se um sistema que pontua mais alto em recall nos testes offline também tem uma alta Taxa de Cliques (CTR) quando os usuários vão online. Além disso, estamos interessados em como ajustar pela popularidade dos itens e considerar o timing das interações dos usuários impacta essa relação.

Planejamos apresentar uma nova métrica de avaliação offline que incorpora tanto a popularidade dos itens quanto o timing das interações dos usuários.

Explorando Pesquisas Existentes

Estudos que comparam métricas online e offline são limitados. Muitos se concentraram em um único conjunto de dados, analisando como avaliações offline em um site de notícias se relacionam com o desempenho online. Eles descobriram que algoritmos que vão bem com métricas offline muitas vezes não se saem tão bem online. Por outro lado, aqueles que sugerem recomendações aleatórias se saíram melhor online porque incentivaram os usuários a explorar novos conteúdos.

Outros tentaram encontrar uma fórmula para prever o desempenho online com base em várias métricas offline, sem sucesso. A descompatibilidade entre como avaliações offline e online funcionam é reconhecida em diferentes áreas. Pesquisas mostram que conjuntos de dados comuns para avaliar sistemas de recomendação frequentemente falham em fornecer uma imagem verdadeira da eficácia em cenários da vida real.

A maior parte das pesquisas feitas até agora não abordou o impacto da popularidade e do timing nas avaliações. Lidar com esses fatores poderia fornecer insights valiosos sobre como as avaliações offline poderiam ser projetadas para refletir melhor o desempenho online.

Contribuições para o Campo

Esse trabalho introduz um novo critério de avaliação offline que considera a popularidade e o timing das interações dos usuários. Ele também envolve a realização de um experimento em grande escala usando conjuntos de dados do mundo real para ver como esse novo método prevê o desempenho online em comparação com métodos tradicionais.

A pesquisa examina se incluir um aspecto temporal nas avaliações offline e reduzir o viés de popularidade leva a uma melhor correspondência entre métricas offline e desempenho online. Em termos mais simples, queremos ver se melhorar nossos métodos offline nos permitirá escolher melhores modelos para recomendações online.

Como o Experimento Funciona

Para realizar os experimentos, primeiro selecionamos um algoritmo de recomendação base. Esse algoritmo utiliza técnicas de filtragem colaborativa baseada em itens, medindo a similaridade entre os itens. Preparamos nossos dados usando métodos de fatoração de matriz com base nas interações passadas dos usuários.

Uma vez que os modelos estão treinados, medimos seu desempenho com várias versões de Métricas de Recall. Depois, lançamos esses modelos em um ambiente ao vivo para coletar interações dos usuários. Rastrear cliques nos permite calcular a taxa de cliques, que serve como nossa medida de desempenho online.

Cada modelo é testado com usuários reais ao longo de um período, coletando dados sobre quantas recomendações resultam em cliques. Exploramos a relação entre métricas de recall offline e taxas de cliques online, procurando especificamente pelo modelo que se sair melhor online com base em suas avaliações offline.

Conjuntos de Dados Usados para o Experimento

Para garantir a precisão de nossas avaliações, usamos conjuntos de dados reais com usuários ao vivo. Esses conjuntos cobrem diversos domínios, como e-commerce e streaming de vídeo, proporcionando uma gama diversificada de interações. O número de usuários e suas interações variaram, mas um tráfego consistente foi necessário para obter medições precisas de CTR.

Os conjuntos de dados foram selecionados para incluir diferentes cenários, ajudando-nos a entender como nossos métodos funcionam em vários contextos. Por exemplo, alguns conjuntos incluíam transações de e-commerce, enquanto outros se concentravam em conteúdo de streaming.

Descobertas do Experimento

Os resultados indicaram que incluir um elemento temporal nas técnicas de avaliação pode melhorar a seleção de modelos que têm melhor desempenho online. As melhores métricas offline levaram a uma taxa mais alta de seleção correta do modelo de acordo com o desempenho online. No entanto, reduzir o viés de popularidade penalizando itens frequentemente interagidos nem sempre garantiu melhores pontuações offline.

A abordagem ótima identificada nos experimentos mostrou uma melhoria notável em prever o sucesso online, validando a importância tanto do timing das interações dos usuários quanto da consideração da popularidade nas métricas offline.

Direções Futuras

A pesquisa atual abrange vários conjuntos de dados, mas estender o escopo para incluir mais modelos poderia fornecer insights ainda mais claros. No entanto, isso traz desafios, como aumento da complexidade e do tempo. Incluir conjuntos de dados de diferentes áreas, como notícias ou redes sociais, poderia melhorar ainda mais nossa compreensão de como essas métricas se comportam em diferentes tipos de conteúdo.

Além disso, empregar métodos mais rigorosos para capturar o aspecto do timing das interações dos usuários poderia levar a avaliações melhores. Por fim, investigar como vários atributos dos conjuntos de dados afetam as métricas offline ajudará a criar uma visão mais abrangente da eficácia dos sistemas de recomendação.

Conclusão

Esse trabalho traz uma luz sobre a complexa relação entre avaliações offline e online de sistemas de recomendação. Ao desenvolver novos métodos que abordam as deficiências das métricas offline convencionais, podemos melhorar as previsões de quão bem um sistema funciona em aplicações do mundo real. Essa pesquisa pretende ajudar as comunidades acadêmica e industrial a melhorar sistemas de recomendação para uma melhor experiência do usuário, levando a uma entrega de conteúdo mais eficaz e envolvente.

Fonte original

Título: Bridging Offline-Online Evaluation with a Time-dependent and Popularity Bias-free Offline Metric for Recommenders

Resumo: The evaluation of recommendation systems is a complex task. The offline and online evaluation metrics for recommender systems are ambiguous in their true objectives. The majority of recently published papers benchmark their methods using ill-posed offline evaluation methodology that often fails to predict true online performance. Because of this, the impact that academic research has on the industry is reduced. The aim of our research is to investigate and compare the online performance of offline evaluation metrics. We show that penalizing popular items and considering the time of transactions during the evaluation significantly improves our ability to choose the best recommendation model for a live recommender system. Our results, averaged over five large-size real-world live data procured from recommenders, aim to help the academic community to understand better offline evaluation and optimization criteria that are more relevant for real applications of recommender systems.

Autores: Petr Kasalický, Rodrigo Alves, Pavel Kordík

Última atualização: 2023-08-13 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2308.06885

Fonte PDF: https://arxiv.org/pdf/2308.06885

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes