Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 情報検索

2段階リトリーバルでコースおすすめを改善する

BrightFitは、新しい二段階のリトリーバルアプローチでコースの提案を強化します。

― 1 分で読む


新しいコース推薦方法新しいコース推薦方法提案を強化する。二段階の検索がBrightFitのコース
目次

今の急激に変わる仕事市場では、新しいスキルを学ぶことが社員にも雇用主にも欠かせないんだ。雇用主はスタッフが競争力を維持することを望んでるし、社員は新しい要求に適応してキャリアを成長させる必要がある。多くの人は、自分の必要なスキルに合ったトレーニングの機会を見つけるのが難しいと感じている。BrightFitは、ユーザーが現在のスキルや将来の仕事の目標に基づいて関連するオンラインコースを見つけるのを助けるために設計されたオンラインシステムだ。

この記事では、BrightFitが提供する推奨を改善した研究について説明するよ。この研究は、二段階のリトリーバルパイプラインを使って推奨をより効果的かつ効率的にするもの。新しいアプローチは、ユーザーが適切なコースをより早く、より正確に見つけるのを手助けしてくれるんだ。

新しいスキルを学ぶ必要性

最近の報告によると、需要のあるスキルのうちかなりの部分が今後数年で変わるらしい。そのせいで、雇用主も働く人もスキルを学び、向上させることに対して強い興味を持っているよ。でも、多くの人が自分のニーズに合ったコースを見つけるのが難しいと感じている。

BrightFitは、ユーザーの現在のスキルを分析して、やりたい仕事に必要なスキルのギャップを埋めるためのオンラインコースを提案するんだ。このシステムは、さまざまな有名なオンラインプラットフォームからコースを推奨して、ユーザーが関連するトレーニングを見つけやすくしている。

コース推奨のアプローチ

BrightFitにある既存の推奨システム、BM25は、キーワードをマッチングする従来の方法なんだけど、このアプローチには限界があるんだ。特に、ユーザーの職業やスキルセットがさまざまな場合に問題が出てくる。そこで、新しい二段階のリトリーバルメソッドが提案された。

この新しい方法では、第一段階でユーザーのスキルや職業の文脈をよりよく理解するための高度なモデルを使うんだ。システムは、ユーザーが学びたいスキルと目指している仕事に基づいてクエリを作成する。例えば、ユーザーが「データアナリスト向けのPython」を学びたい場合、システムは適切なクエリを生成する。

第二段階では、初期結果に基づいて提案の質を改善するために再ランキングモデルを使う。この新しい方法は、BrightFitのような短期的な使用シナリオでも、過去のユーザーデータがなくてもうまく機能するように設計されている。

データと方法論

データソース

BrightFitは、UdemyやedXを含む4つの主要なオンライン学習プラットフォームからコースデータを集めている。各プラットフォームは、さまざまなトピックをカバーするコースを提供している。コースにはタイトルと説明が付いていて、ユーザーの学習目標に合わせてマッチさせるのに必要なんだ。

分析の前に、コースの説明は処理する必要があって、一貫性があり、扱いやすいようにしなければならない。それには、プレーンテキストに変換してフォーマットを標準化することが含まれる。

クエリの作成

ユーザーは、BrightFitを使って学びたいスキルを表現し、現在の職業を選択することでインタラクションする。システムは、これらの入力に基づいてクエリを作成して関連するコースを検索する。このクエリは、スキルと職業タイトルを組み合わせた特定のフォーマットに従っていて、リトリーバルシステムがより効果的に適切なコースを見つけられるようになっている。

評価データセット

新しい推奨メソッドの効果を評価するために、2つのデータセットが作成された:

  1. BrightFit ITデータセット:このデータセットはIT関連のスキルに特化していて、一般的に他の分野よりも多くのコースがある。
  2. BrightFit一般スキルデータセット:これは、より広範な職業とスキルを含んでいる。

各データセットには、特定のスキルや職業に関連するクエリが含まれていて、コースは三段階のスケールで関連性が評価された。これにより、新しいシステムが行う推奨がユーザーにとって関連性があり、有益であることが保証されるんだ。

新しい二段階リトリーバル方法

第一段階:初期リトリーバル

新しいアプローチの最初のステップは、GTRというモデルを使うことなんだ。このモデルは、ユーザーのクエリに基づいて潜在的なコースのリストを取得するのに役立つ。GTRモデルは、既存のBM25システムよりも良く機能して、初期結果に関連するコースをより多く含むようにしている。

第二段階:再ランキング

第一段階で潜在的なコースが特定された後、第二段階では、RankT5という別のモデルを使ってこれらの結果を洗練する。このモデルは、検索されているスキルに関連するコースの文脈を理解するのが特に得意なんだ。

パフォーマンスを向上させるために、RankT5モデルは、以前のデータセットであるMSMARCOでファインチューニングされていて、より正確なコースランキングを提供できるようになっている。

要約の使用

コースの説明はしばしば長ったらしく、不要な情報が盛りだくさんになっちゃう。この問題を解決するために、要約技術が使われて説明を短く、明確にするんだ。2つの要約モデルが試された:

  1. LongT5:簡潔な要約を作成するようにファインチューニングされたモデル。
  2. Vicuna:特定の訓練なしで要約を生成する高度なモデルで、プロンプトに応じて反応する。

両モデルをテストした結果、コース説明を要約することでランキングの精度が大幅に向上したことがわかった。無関係な詳細を排除して、ランキングモデルが重要な情報に集中できるようになったからだ。

定量化の実験

さらなるスピードと効率を向上させるために、さまざまな定量化方法が探求された。定量化はモデルのメモリ使用量を最小限に抑えて、より速くしつつも推奨の質を維持することを目指す。3つの定量化方法がテストされた:

  1. 動的定量化
  2. 静的定量化
  3. SmoothQuant

これらの実験から、定量化はランキングプロセスのスピードを大幅に向上させることができると示され、BrightFitは品質を損なうことなく迅速に推奨を提供できるようになった。

ユーザー体験の評価

A/Bテスト

新しい推奨システムとユーザーがどのようにインタラクションするかを理解するために、A/Bテストが実施された。このテストでは、一部のユーザーには従来のBM25ベースの推奨が提供され、他のユーザーには新しいRankT5ベースの提案が示された。

結果は、ユーザーが伝統的なシステムに期待以上に高いインタラクション率を示したことを示していたが、オフライン評価では新しい方法が精度の面で優れていることが示されていた。

ユーザーのフィードバック

参加者から直接フィードバックを得るためにアンケートも活用された。参加者には両システムから推薦されたコースのリストが提示され、どちらを好むか、その理由を尋ねた。

結果は、ほとんどの場合、ユーザーが新しいRankT5の推奨を好んでいたことを示していて、コースの評価やコース内容の多様性が選択に影響を与える重要な要素であることが強調された。

結論

この研究は、二段階リトリーバルアプローチがBrightFitのようなオンライン学習環境でのコース推奨を大幅に向上させることができることを示した。初期リトリーバルにGTRを使用し、再ランキングにRankT5を組み合わせることで、スキルを向上させたいユーザーにとってより効果的な提案が実現された。

また、要約の導入はコース説明の関連性を向上させ、ランキングモデルがどのコースがユーザーのクエリに最も合致するかを評価しやすくしたんだ。

定量化技術は推奨のスピードをさらに最適化して、ユーザーがタイムリーな提案を受け取る一方でパフォーマンスを損なわないようにしている。

全体的に、A/Bテストの結果はユーザーのインタラクションの面で驚きだったが、オフライン評価およびユーーフィードバックは新しい方法の効果を支持している。将来的な改善には、ユーザーの好みをより慎重に考慮して、さらに良いパフォーマンスのための強固なトレーニングデータセットを作成することが含まれるかもしれない。

BrightFitは、個々の人々がスキルを向上させ、キャリア目標を達成するための適切なコースを見つける手助けができるようになって、学習をよりアクセスしやすく、効果的にしているんだ。

オリジナルソース

タイトル: Efficient course recommendations with T5-based ranking and summarization

概要: In this paper, we implement and evaluate a two-stage retrieval pipeline for a course recommender system that ranks courses for skill-occupation pairs. The in-production recommender system BrightFit provides course recommendations from multiple sources. Some of the course descriptions are long and noisy, while retrieval and ranking in an online system have to be highly efficient. We developed a two-step retrieval pipeline with RankT5 finetuned on MSMARCO as re-ranker. We compare two summarizers for course descriptions: a LongT5 model that we finetuned for the task, and a generative LLM (Vicuna) with in-context learning. We experiment with quantization to reduce the size of the ranking model and increase inference speed. We evaluate our rankers on two newly labelled datasets, with an A/B test, and with a user questionnaire. On the two labelled datasets, our proposed two-stage ranking with automatic summarization achieves a substantial improvement over the in-production (BM25) ranker: nDCG@10 scores improve from 0.482 to 0.684 and from 0.447 to 0.844 on the two datasets. We also achieve a 40% speed-up by using a quantized version of RankT5. The improved quality of the ranking was confirmed by the questionnaire completed by 29 respondents, but not by the A/B test. In the A/B test, a higher clickthrough rate was observed for the BM25-ranking than for the proposed two-stage retrieval. We conclude that T5-based re-ranking and summarization for online course recommendation can obtain much better effectiveness than single-step lexical retrieval, and that quantization has a large effect on RankT5. In the online evaluation, however, other factors than relevance play a role (such as speed and interpretability of the retrieval results), as well as individual preferences.

著者: Thijmen Bijl, Niels van Weeren, Suzan Verberne

最終更新: 2024-06-27 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2406.19018

ソースPDF: https://arxiv.org/pdf/2406.19018

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事