メルカリのユーザー選択における画像品質の影響
研究によると、良い画像がメルカリでのユーザーエンゲージメントを高めるらしいよ。
― 1 分で読む
目次
メルカリは、日本で人気のあるオンラインマーケットプレイスで、毎月2000万人以上のアクティブユーザーがいるんだ。ほとんどの人は、アプリを使っていろんなアイテムを買ったり売ったりしてる。ユーザーは、自分が欲しいものに関連する言葉で検索して商品を探すことが多いんだけど、その際、主に画像と価格を見て、何が興味深いかを決めるんだ。だから、画像の質は、クリックして購入してもらうためにすごく重要なんだよね。
この研究では、メルカリでのユーザーの選択に対する画像の質の影響を調べたんだ。人間の手をあまり必要とせず、コストや時間がかからない方法で画像の質を評価する方法を見つけたかった。そこで、データのパターンに基づいて画像の質のラベルを生成できる高度な言語モデルを使ったんだ。この方法は効率的で、ユーザーにとって魅力的な画像が何かを理解するのに役立つんだ。
Eコマースにおける画像の質の重要性
メルカリみたいなプラットフォームでは、売り手が自分で撮った画像で商品を掲載できるんだけど、全ての売り手が良い写真を撮れるわけじゃないんだ。多くの商品が質の悪い画像を持っていると、買い手にとって良くない体験になっちゃう。だから、売り手が画像の質を改善する手助けをする方法を見つけることが大事なんだ。
買い手が商品を探すとき、似たような選択肢が多く見えることがある。この場合、画像が決め手になることが多いんだ。研究によると、いい画像はクリックや販売が増えることが示されているから、画像の質を効果的に評価する必要があるんだよね。
画像評価のための言語モデルの活用
画像の質を評価するために、大規模な言語モデル(LLM)を使ったんだ。これらのモデルは、画像を分析して、過去のユーザーのインタラクションに基づいて質のスコアを提供できるんだ。このアプローチは弱い監視と呼ばれていて、あまり信頼性のないけど役立つ信号を使ってモデルをガイドするんだ。
「Chain-of-Thought」プロンプトっていう方法を使って、モデルが画像の質に関連するラベルを生成するのを助けたんだ。LLMを使うことで、多くの人を巻き込むことなく、迅速に大量のラベル付きデータを生成できるんだ。
データ収集プロセス
私たちのプロセスは、メルカリのユーザーからの検索ログを集めることから始まったんだ。画像の質が、ユーザーが似たようなアイテムを見ているときにどのように影響するかを知りたかったんだ。それを実現するために、価格が似ていて、検索結果で近くに位置しているアイテムだけをフィルタリングしたんだ。
約15万の検索結果ページを分析して、私たちのLLMを使って画像のスコアを生成したんだ。クリックされたアイテムのスコアと、クリックされなかったアイテムのスコアを比較して、高いスコアがより多くのエンゲージメントと相関しているかを見たんだ。
画像の質とユーザーエンゲージメントに関する発見
分析の結果、画像の質が高いアイテムは、スコアが低いアイテムよりもクリックされることが多いことがわかったんだ。この発見は、画像の質がメルカリでのユーザーの行動に大きな影響を与えることを示唆しているよ。質の高い画像は、ユーザーのエンゲージメントを高めるから、買い手を引きつけたい売り手にとって重要なんだ。
私たちは、言語モデルの分析において特定の形容詞の存在にも気づいたんだ。クリックされたアイテムはポジティブな表現で説明されることが多く、クリックされなかったアイテムは中立的またはネガティブな説明を受けることが多かった。これも、良い画像がユーザーにクリックを促すという考えをさらに支持しているんだ。
画像スコアモデルの開発
データを集めて分析した後、画像の質に基づいてアイテムがクリックされる可能性を予測するための画像スコアモデルを作ったんだ。このモデルは、私たちのLLMが生成したスコアを使ってトレーニングされ、既存の検索システムに組み込まれたんだ。
このモデルは、ユーザーの検索クエリに対するアイテムの関連性を評価するために、いくつかの特徴を組み合わせて利用してるんだ。画像スコアを統合するために、画像の質の影響を増幅する乗算的アプローチと、よりバランスの取れた方法で画像スコアを含める加算的アプローチの2つの方法を試したんだ。どちらの方法も、最も効果的なオプションを特定するために実験を通じて微調整したよ。
オンラインとオフラインのテスト
画像スコアモデルを展開する前に、その性能を評価するためにオフラインテストを行ったんだ。モデルが画像の質に基づいてユーザーのエンゲージメントをどれだけ予測できるかを測るために、Ordered Pair AccuracyとClick Accuracyという2つの指標を使ったんだ。
オフラインテストの結果、従来の手法、たとえば過去のクリック率を使う方法に比べてパフォーマンスが改善されたことがわかったんだ。これは、私たちのモデルがどのアイテムがクリックされる可能性があるかをより正確に予測できることを示しているよ。
次に、実際の環境でモデルがどれだけうまく機能するかを確認するためにオンラインA/Bテストに移行したんだ。ユーザーを、コントロールグループと、私たちの画像スコアを適用するための異なる方法を使用する2つのグループに分けたんだけど、結果はウェブプラットフォームでユーザーエンゲージメントが大幅に向上することを示したんだ。
ユーザーエクスペリエンスと今後の考慮事項
結果は、画像の質がメルカリのユーザー体験を向上させることを示しているよ。ただ、ウェブとモバイルプラットフォームでのユーザーの反応にはいくつかの違いがあることにも気づいたんだ。ウェブユーザーは大きな画面のため、画像の質にもっと影響を受ける傾向があるんだ。
私たちが直面した問題の一つは、一部の売り手がAI生成の画像を使っていて、それが高いスコアを受け取ることで、検索結果に潜在的な不正確さを引き起こしてしまうことだった。これに対処するためには、提示される画像の真偽を確認する方法が必要だよね。
さらに、継続的なモニタリングとフィードバックは、私たちのアプローチを洗練させるために欠かせないんだ。新しいランキングフォーミュラやユーザーエンゲージメント指標を追跡することで、買い手と売り手の両方にとって全体的な体験を改善できるんだよ。
結論
この研究は、画像の質がメルカリでのユーザーの選択にどのように影響するかを調査していて、その重要性を強調しているんだ。効率的に画像の質を評価するために言語モデルを使うことで、より良い画像とユーザーエンゲージメントの増加との強い相関関係を見つけたんだ。私たちの画像スコアモデルは、プラットフォームでのユーザー体験を向上させるための有望な解決策を提供しているんだ。
全体的に、私たちの発見はEコマースにおける視覚認識に貴重な洞察を提供し、ユーザーの好みやAI生成コンテンツのより信頼できる検出に焦点を当てた将来の研究の道を示唆しているんだ。ユーザーにとってのより良い体験は、最終的にはメルカリでの売り手の満足度や成功にもつながると思うよ。
タイトル: Image Score: Learning and Evaluating Human Preferences for Mercari Search
概要: Mercari is the largest C2C e-commerce marketplace in Japan, having more than 20 million active monthly users. Search being the fundamental way to discover desired items, we have always had a substantial amount of data with implicit feedback. Although we actively take advantage of that to provide the best service for our users, the correlation of implicit feedback for such tasks as image quality assessment is not trivial. Many traditional lines of research in Machine Learning (ML) are similarly motivated by the insatiable appetite of Deep Learning (DL) models for well-labelled training data. Weak supervision is about leveraging higher-level and/or noisier supervision over unlabeled data. Large Language Models (LLMs) are being actively studied and used for data labelling tasks. We present how we leverage a Chain-of-Thought (CoT) to enable LLM to produce image aesthetics labels that correlate well with human behavior in e-commerce settings. Leveraging LLMs is more cost-effective compared to explicit human judgment, while significantly improving the explainability of deep image quality evaluation which is highly important for customer journey optimization at Mercari. We propose a cost-efficient LLM-driven approach for assessing and predicting image quality in e-commerce settings, which is very convenient for proof-of-concept testing. We show that our LLM-produced labels correlate with user behavior on Mercari. Finally, we show our results from an online experimentation, where we achieved a significant growth in sales on the web platform.
著者: Chingis Oinar, Miao Cao, Shanshan Fu
最終更新: 2024-08-21 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2408.11349
ソースPDF: https://arxiv.org/pdf/2408.11349
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。