Simple Science

Ciência de ponta explicada de forma simples

# Estatística# Aprendizagem de máquinas# Aprendizagem automática

Melhorando as Recomendações de Artigos Através de Dados Históricos

Um novo método pra melhorar as recomendações de artigos usando dados históricos dos usuários.

― 8 min ler


RecomendaçõesRecomendaçõesInteligentes de Notíciasusando o feedback dos usuários.Melhorando as sugestões de artigos
Índice

Tomar decisões em situações do dia a dia pode ser complicado, principalmente quando não tem informação suficiente disponível. Essa falta de dados pode gerar incertezas, e é super importante que sistemas inteligentes busquem informações ativamente pra diminuir essa incerteza. Esse artigo apresenta um novo método pra criar sistemas de tomada de decisão que aprendem com experiências passadas. A gente foca em como esse método pode ajudar a recomendar artigos pra usuários, especialmente quando esses artigos são novos e ainda não testados.

O Desafio da Incerteza

Em muitas situações, como recomendar notícias, tem mudanças constantes e novas informações surgindo. Por exemplo, todo dia novos artigos são publicados. Quando o sistema tenta decidir qual artigo mostrar pros usuários, ele precisa considerar que alguns artigos podem ser bem interessantes, enquanto outros podem não atrair muita atenção. O desafio tá em fazer as apostas certas sobre esses artigos com base em informações históricas e reações dos usuários.

A Estrutura de Tomada de Decisão

A gente propõe um método em duas fases pra melhorar a tomada de decisão com Dados Históricos. A primeira fase envolve treinar um modelo usando dados passados. Esse modelo aprende a entender padrões de como os usuários reagem a diferentes tipos de artigos. Na segunda fase, esse modelo treinado é usado pra tomar decisões sobre recomendar novos artigos pros usuários.

Fase Um: Aprendendo com Dados Históricos

A primeira fase é toda sobre coletar conhecimento das interações passadas dos usuários. Por exemplo, a gente pode observar como os usuários reagiram a artigos anteriores-eles podem ter clicado em alguns, compartilhado outros ou ignorado muitos. Entendendo essas reações, o modelo pode prever quais novos artigos podem ser um sucesso.

O modelo usa os textos dos artigos, como as manchetes, pra criar previsões sobre o engajamento dos usuários. À medida que o modelo é treinado, ele ajusta sua compreensão sobre o que faz um artigo ser interessante pros leitores.

Fase Dois: Fazendo Recomendações

Uma vez que o modelo tá treinado, ele entra na segunda fase, onde precisa recomendar novos artigos. É aqui que a verdadeira tomada de decisão acontece. O modelo gera possíveis resultados pra esses novos artigos com base nos padrões que aprendeu na primeira fase. Depois, ele escolhe o artigo que acredita que vai ter um desempenho melhor com base nessas previsões.

Tomada de Decisão em Ação

Pra ilustrar como esse método funciona, vamos considerar uma situação de recomendação de notícias. Todo dia, um sistema de recomendação de notícias precisa lidar com um conjunto de novos artigos. O sistema primeiro observa as características desses artigos, como suas manchetes, e então usa o modelo treinado com dados históricos pra estimar o quão envolvente cada artigo pode ser pros novos usuários.

Esse modelo não toma decisões só com base nas características dos artigos; ele também considera o feedback anterior dos usuários sobre artigos similares. Combinando dados históricos com características do novo conteúdo, o sistema consegue fazer recomendações mais informadas.

Problema do Meta-Bandit

A gente encara nosso desafio de recomendação como um problema de "meta-bandit". Em termos simples, isso significa que precisamos aprender repetidamente sobre novas tarefas (neste caso, recomendar artigos) enquanto coletamos informações ativamente pra melhorar com o tempo.

Em muitas aplicações do mundo real, especialmente em Sistemas de Recomendação, novos itens são introduzidos regularmente. Esse fluxo constante de novas informações torna essencial que o sistema ajuste sua estratégia com base em dados frescos continuamente.

Duas Fases de Aprendizado

Nosso método consiste em duas fases principais:

  1. Aprendendo com a História: Aqui, a gente treina um modelo que prevê interações dos usuários com base em dados passados. Esse modelo coleta insights sobre quais tipos de artigos atraíam os usuários.

  2. Tomando Decisões com Novos Artigos: Nessa fase, o modelo pega o que aprendeu e aplica a novos artigos. Ele equilibra a vontade de explorar o que já conhece sobre artigos conhecidos e a necessidade de descobrir novo conteúdo pra ver como se sai.

Visão Geral do Algoritmo

Nossa solução proposta consiste em dois passos principais. Inicialmente, a gente treina o modelo usando dados históricos. Essa fase de treinamento ajuda o modelo a aprender os fatores principais que dirigem o engajamento dos usuários. Depois do treinamento, o modelo passa pra Fase Online, onde gera previsões sobre como novos artigos podem se sair com base em suas características e nos padrões que aprendeu anteriormente.

Fase de Pré-Treinamento

Durante a fase de pré-treinamento, o modelo aprende a simular interações dos usuários, permitindo que ele crie uma melhor compreensão dos resultados potenciais. Ele usa as características dos artigos pra prever como cada artigo vai se sair com diferentes usuários.

Fase Online

Uma vez que o pré-treinamento tá completo, o modelo tá pronto pra fase online. Aqui, ele gera resultados hipotéticos pra novos artigos. Esses resultados gerados permitem que o modelo estime qual artigo provavelmente vai ter o melhor engajamento dos usuários.

O sistema então recomenda o artigo que mostra o maior interesse esperado dos usuários com base nessas previsões. Depois que o artigo é mostrado ao usuário, o feedback real é coletado, o que pode ser usado pra mais treinamento e melhorar futuras recomendações.

Lidando com Dados Faltantes

Um dos aspectos críticos desse método é sua capacidade de lidar com dados faltantes. Durante o processo de recomendação, o sistema precisa estimar as reações dos usuários pra artigos que não foram previamente mostrados a nenhum usuário. Gerando resultados hipotéticos, o modelo pode fazer suposições informadas sobre o que os usuários podem achar ou como eles podem interagir com um novo artigo.

A Importância de Recursos Ricos

Usar recursos ricos dos artigos, como manchetes detalhadas ou categorias, é crucial pra que o modelo aprenda efetivamente. Essas características dão ao sistema uma chance melhor de prever o desempenho dos artigos em comparação com sistemas mais simples que dependem de informações limitadas. A combinação de recursos textuais com feedback dos usuários leva a um processo de tomada de decisão mais robusto.

Avaliação de Desempenho

Pra avaliar nosso método proposto, aplicamos ele a uma tarefa de recomendação de notícias. O modelo foi configurado pra recomendar artigos com base tanto em dados passados quanto nas características de novos artigos. Os resultados mostraram que quando o modelo utilizava recursos ricos dos artigos, ele superava sistemas de recomendação tradicionais.

O modelo também conseguiu quantificar a incerteza sobre suas previsões, permitindo que ele tomasse decisões melhores em situações onde as preferências dos usuários poderiam mudar rapidamente.

Aprendendo com o Tempo

À medida que novos artigos são lançados, o modelo continua aprendendo com as interações dos usuários. Cada recomendação ajuda o modelo a ajustar suas previsões, levando a um ciclo de melhoria contínua. Essa adaptabilidade é essencial em ambientes onde as preferências podem mudar rápido.

Conclusões

O método descrito nesse artigo oferece uma maneira sistemática de melhorar a tomada de decisão em ambientes incertos, especialmente em recomendações. Focando em aprender com dados históricos e aplicando esse conhecimento a novas situações, a gente pode melhorar a experiência dos usuários e fazer previsões mais precisas sobre qual conteúdo vai engajar o público.

Através da abordagem em duas fases de pré-treinamento e tomada de decisão online, enfrentamos efetivamente os desafios da incerteza e da escassez de dados enquanto evoluímos continuamente nossas recomendações com base no feedback real dos usuários. Essa estrutura não só se aplica a artigos de notícias, mas também pode ser estendida a várias áreas, desde e-commerce até entrega de conteúdo personalizada.

À medida que avançamos, o foco vai permanecer em refinar esses métodos e explorar suas aplicações em outras áreas, garantindo que sistemas inteligentes possam sempre fornecer conteúdo relevante e envolvente pros usuários.

Fonte original

Título: Posterior Sampling via Autoregressive Generation

Resumo: Real-world decision-making requires grappling with a perpetual lack of data as environments change; intelligent agents must comprehend uncertainty and actively gather information to resolve it. We propose a new framework for learning bandit algorithms from massive historical data, which we demonstrate in a cold-start recommendation problem. First, we use historical data to pretrain an autoregressive model to predict a sequence of repeated feedback/rewards (e.g., responses to news articles shown to different users over time). In learning to make accurate predictions, the model implicitly learns an informed prior based on rich action features (e.g., article headlines) and how to sharpen beliefs as more rewards are gathered (e.g., clicks as each article is recommended). At decision-time, we autoregressively sample (impute) an imagined sequence of rewards for each action, and choose the action with the largest average imputed reward. Far from a heuristic, our approach is an implementation of Thompson sampling (with a learned prior), a prominent active exploration algorithm. We prove our pretraining loss directly controls online decision-making performance, and we demonstrate our framework on a news recommendation task where we integrate end-to-end fine-tuning of a pretrained language model to process news article headline text to improve performance.

Autores: Kelly W Zhang, Tiffany Tianhui Cai, Hongseok Namkoong, Daniel Russo

Última atualização: 2024-10-08 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2405.19466

Fonte PDF: https://arxiv.org/pdf/2405.19466

Licença: https://creativecommons.org/licenses/by-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes