歴史的データを使った記事おすすめの改善
歴史的なユーザーデータを使った、より良い記事レコメンデーションのための新しい方法。
― 1 分で読む
目次
現実の状況で決定を下すのは難しいことがあるよね。特に、十分な情報がない時は。情報が足りないと不確実性が生まれるから、賢いシステムはこの不確実性を減らすために積極的に情報を集める必要があるんだ。この記事では、過去の経験から学ぶ意思決定システムを作る新しい方法を紹介するよ。この方法が、新しい記事や未検証の記事をユーザーにおすすめするのにどう役立つかに焦点を当てるね。
不確実性の課題
ニュース記事を推薦する場面では、常に変化や新しい情報があるんだ。例えば、毎日新しい記事が公開される。どの記事をユーザーに見せるかを決める時、システムは、魅力的な記事もあれば興味を引かない記事もあることを考慮する必要がある。この課題は、歴史的な情報やユーザーの反応に基づいて、正しい予想をすることにあるんだ。
意思決定のフレームワーク
私たちは、過去のデータを使って意思決定を改善するための2段階の方法を提案するよ。最初の段階は、過去のデータを使ってモデルを訓練すること。モデルは、ユーザーがどのように様々なタイプの記事に反応するかのパターンを理解することを学ぶんだ。2つ目の段階では、この訓練されたモデルを使って新しい記事の推薦をする。
段階1: 過去のデータから学ぶ
最初の段階では、過去のユーザーのインタラクションから知識を集めることが大事だね。例えば、過去の記事に対してユーザーがどう反応したかを見てみる。クリックしたり、シェアしたり、無視したりすることがあるから。それらの反応を理解することで、モデルはどの記事が成功する可能性があるかを予測できるようになるんだ。
モデルは、記事のテキスト(見出しなど)を使って、ユーザーのエンゲージメントに関する予測を行う。訓練が進むにつれて、モデルは読者にとって魅力的な記事が何かをよりよく理解するようになるよ。
段階2: おすすめの作成
モデルが訓練されたら、次の段階に入って新しい記事を推薦する必要がある。ここで本当の意思決定が行われるよ。モデルは、最初の段階で学んだパターンに基づいて新しい記事の可能性のある結果を生成する。それから、これらの予測に基づいて最も良いパフォーマンスをすると思う記事を選ぶんだ。
意思決定の実践
この方法がどのように機能するかを示すために、ニュース推薦のシナリオを考えてみよう。毎日、ニュース推薦システムは新しい記事のセットに対処しなければならない。まず、システムはこれらの記事の属性(見出しなど)を観察して、過去のデータで訓練されたモデルを使って、新しいユーザーにとってどの程度エンゲージメントがあるかを推定するんだ。
このモデルは、記事の特徴に基づいて決定を下すだけじゃなく、類似の記事に対する過去のユーザーのフィードバックも考慮するよ。歴史的なデータと新しいコンテンツの特徴を組み合わせることで、システムはより情報に基づいた推薦を導き出せるんだ。
メタ・バンディット問題
私たちは、推薦の課題を「メタ・バンディット」問題としてアプローチするよ。簡単に言えば、これは新しいタスク(この場合は記事の推薦)について繰り返し学びながら、時間とともに改善するために情報を積極的に集める必要があるってこと。
多くの現実のアプリケーション、特に推薦システムでは、新しいアイテムが定期的に導入される。新しい情報が常に流入してくるから、システムは新鮮なデータに基づいて戦略を調整する必要があるんだ。
学習の2つの段階
私たちのアプローチは、2つの重要な段階からなるよ:
歴史から学ぶ:ここでは、過去のデータに基づいてユーザーのインタラクションを予測するモデルを訓練する。モデルは、どのタイプの記事がユーザーを引きつけたかの洞察を集める。
新しい記事での意思決定:この段階では、モデルが学んだことを新しい記事に適用する。すでに知られている記事についての知識を活用する欲求と、新しいコンテンツを探求する必要のバランスを取るんだ。
アルゴリズムの概要
私たちの提案するソリューションは、主に2つのステップで構成されているよ。最初に、過去のデータを使ってモデルを訓練する。この訓練段階で、モデルはユーザーエンゲージメントを駆動する重要な要因を学ぶ。その後、モデルはオンライン段階に移行して、新しい記事の性能についての予測を生成する。
事前訓練段階
事前訓練段階では、モデルはユーザーインタラクションをシミュレートすることを学ぶことで、潜在的な結果をよりよく理解できるようにする。記事の特徴を使って、各記事が異なるユーザーにどのようにパフォーマンスを発揮するかを予測するんだ。
オンライン段階
事前訓練が終わったら、モデルはオンライン段階に入る。ここでは、新しい記事についての仮説的な結果を生成する。この生成された結果をもとに、モデルはどの記事がユーザーのエンゲージメントを最も得られるかを推定する。
システムは、これらの予測に基づいて最もユーザーの関心を引く記事を推薦する。その後、記事がユーザーに表示されたら、実際のユーザーフィードバックが収集され、今後の訓練や推薦の改善に役立てられるんだ。
欠損データへの対処
このアプローチの重要な側面の一つは、欠損データに対処する能力だよ。推薦プロセス中に、システムは以前にどのユーザーにも表示されなかった記事についてのユーザーの反応を推定しなければならない。仮説的な結果を生成することで、モデルはユーザーが新しい記事をどう思うか、どうインタラクトするかについての教育的な推測を行うことができるんだ。
リッチな特徴の重要性
詳細な見出しやカテゴリーなど、リッチな記事の特徴を使うことは、モデルが効果的に学ぶために重要なんだ。これらの特徴があれば、限られた情報に頼るシンプルなシステムよりも、記事のパフォーマンスを予測するチャンスが増えるよ。テキストの特徴とユーザーフィードバックを組み合わせることで、より堅牢な意思決定プロセスが生まれるんだ。
パフォーマンス評価
私たちの提案した方法を評価するために、ニュース推薦タスクに適用してみた。モデルは、過去のデータと新しい記事の属性に基づいて記事を推薦するように設定されていた。結果、モデルがリッチな特徴を利用した時、従来の推薦システムを上回ることができたんだ。
モデルはまた、自身の予測に関する不確実性を定量化できるため、ユーザーの好みが急速に変わる状況でより良い決定を下せるようになったよ。
時間の経過とともに学ぶ
新しい記事がリリースされるたびに、モデルはユーザーのインタラクションから学び続ける。毎回の推薦が、モデルの予測を調整する助けになることで、継続的な改善サイクルを生んでいく。この適応性は、好みが迅速に変化する環境では非常に重要なんだ。
結論
この記事で説明した方法は、不確実な環境での意思決定を改善するための体系的な方法を提供している、特に推薦に関して。歴史的なデータから学ぶことに焦点を当て、その知識を新しい状況に応じて適用することで、ユーザー体験を向上させ、どのコンテンツがオーディエンスを引きつけるかについてより正確な予測ができるようになるんだ。
事前訓練とオンライン意思決定の2段階アプローチを通じて、不確実性やデータ不足の課題に効果的に取り組み、リアルなユーザーフィードバックに基づいて私たちの推薦を進化させていく。このフレームワークは、ニュース記事だけでなく、eコマースやパーソナライズされたコンテンツ配信など、さまざまな分野にも適用できるよ。
これからも、これらの方法を洗練させたり、他の分野での応用を探ったりして、インテリジェントなシステムが常にユーザーに関連性のある魅力的なコンテンツを提供できるようにしていくよ。
タイトル: Posterior Sampling via Autoregressive Generation
概要: Real-world decision-making requires grappling with a perpetual lack of data as environments change; intelligent agents must comprehend uncertainty and actively gather information to resolve it. We propose a new framework for learning bandit algorithms from massive historical data, which we demonstrate in a cold-start recommendation problem. First, we use historical data to pretrain an autoregressive model to predict a sequence of repeated feedback/rewards (e.g., responses to news articles shown to different users over time). In learning to make accurate predictions, the model implicitly learns an informed prior based on rich action features (e.g., article headlines) and how to sharpen beliefs as more rewards are gathered (e.g., clicks as each article is recommended). At decision-time, we autoregressively sample (impute) an imagined sequence of rewards for each action, and choose the action with the largest average imputed reward. Far from a heuristic, our approach is an implementation of Thompson sampling (with a learned prior), a prominent active exploration algorithm. We prove our pretraining loss directly controls online decision-making performance, and we demonstrate our framework on a news recommendation task where we integrate end-to-end fine-tuning of a pretrained language model to process news article headline text to improve performance.
著者: Kelly W Zhang, Tiffany Tianhui Cai, Hongseok Namkoong, Daniel Russo
最終更新: 2024-10-08 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2405.19466
ソースPDF: https://arxiv.org/pdf/2405.19466
ライセンス: https://creativecommons.org/licenses/by-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://github.com/tung-nd/TNP-pytorch/blob/73df9225ab584b6148645851d82f96df518da78a/contextual_bandits/runner/cmab_runner.py#L543
- https://arxiv.org/pdf/2206.04415.pdf
- https://arxiv.org/pdf/2010.15982.pdf
- https://dl.acm.org/doi/abs/10.1145/3460231.3474268
- https://ii.uni.wroc.pl/~lipinski/ADM2022s/A.%20Urbanski%20-%20protoCF.pdf
- https://arxiv.org/pdf/2202.13491.pdf
- https://arxiv.org/pdf/1904.11547.pdf
- https://dl.acm.org/doi/10.1145/3394171.3413739
- https://arxiv.org/pdf/2105.04790.pdf
- https://arxiv.org/pdf/2105.08909.pdf
- https://arxiv.org/pdf/2012.05462.pdf
- https://arxiv.org/abs/1803.01088
- https://msnews.github.io/
- https://github.com/msnews/MIND/blob/master/MSR%20License_Data.pdf
- https://github.com/msnews/MIND/blob/master/MSR
- https://www.microsoft.com/en-us/legal/terms-of-use
- https://huggingface.co/distilbert/distilbert-base-uncased
- https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/apache-2.0.md
- https://github.com/goodfeli/dlbook_notation