Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 情報検索

ショッピングの興味と商品の種類をつなげる

新しいアプローチが、Eコマースサイトが興味を商品に結びつけるのを助ける。

― 1 分で読む


オンラインでの効率的な商品オンラインでの効率的な商品発見買い物客が関連商品を見つけやすくする。
目次

オンラインショッピングをする時、みんな特定の興味を持ってることが多いよね、例えばハイキングとか料理とか。だから、eコマースサイトはこれらの興味に合ったさまざまな商品を見せることが大事で、ショッピング体験を良くする必要があるんだ。でも、多くのオンラインストアは、この興味と正しい商品を結びつけるのがうまくできてない。これが、特に何を探してるか分からない時に、買い物をする人たちが欲しいものを見つけるのを難しくしてる。

課題

商品を探してるお客さんは、決断をする過程でいくつかの段階を経ることが多いんだ。特定のブランドの靴を探してる人は、購入ファネルの低い段階にいるけど、一方でハイキング用のギアを探してる人は、まだ何を買うか考えてるから、ファネルの高い段階にいる。彼らは、自分の一般的な興味に合った商品を見つける手助けが必要なんだ。

今のところ、多くのeコマースサイトは、このニーズにあまり応えられてない。例えば、誰かがCOVID-19に関連する商品を探すと、主に本や検査キットの結果が出てきて、重要な商品であるマスクや体温計を見逃しちゃうことがある。検索結果はランダムで混乱しているように感じて、お客さんを困惑させるんだ。

大きな問題は「ショッピング興味」という概念がオンラインストアに欠けていること。これが、興味と正しい商品を結びつけて、お客さんに合ったおすすめをするのを難しくしてる。

その結果、多くの買い物客は特定の興味に焦点を当てたキュレーションされたウェブページを探しちゃうんだ。これらのページは通常、その興味に関連したおすすめ商品を整理したリストを提供していて、だからお客さんは購入するためにeコマースサイトに戻る前に、必要なものを見つけるのに余分な時間を費やさなきゃいけない。

目標

私たちの目標は、eコマースサイト上でさまざまなショッピング興味に関連する商品を直接見つけること。これによって、お客さんが複数のステップを経ずに必要なものを見つけやすくするんだ。この目標を達成するための最初のステップは、これらの特定の興味に特化したウェブページを集めること。

関連ページの収集

これらのページを集めるために、Googleみたいな検索エンジンを使うんだ。特定のショッピング興味と「装備リスト」や「チェックリスト」みたいな用語を組み合わせた検索クエリを作成して、役立つウェブページを見つけ出す。

抽出プロセス

これらのウェブページを集めた後の次のタスクは、そこから商品タイプを抽出すること。これはウェブページの構造を分析することで行うよ。ウェブページは異なる部分で構成されていて、私たちの仕事は、私たちが調べている興味に関連する商品タイプが言及されているセクションを探すこと。

抽出は、ウェブページの異なる部分を分類するタスクとみなしてる。ウェブページの各セクションは木構造のノードのように考えられて、いくつかのノードは商品タイプに関する情報を含んでる。

複雑さへの対処

これらのウェブページから商品タイプを抽出する際にはいくつかの課題がある。まず、ページのスタイルや用語が大きく異なること。これが、あるタイプのウェブページ用に設計されたソリューションが別のページでうまく機能しない原因になってる。

もう一つの課題は、実際に私たちがターゲットにしている興味に関連する商品タイプを見極めること。多くのページが、あまり関連性がない商品タイプを示すかもしれないから、関係ない商品タイプをフィルタリングする必要がある。

最後に、私たちは訓練していない興味に対しても、さまざまな興味のための商品タイプを見つけたいと思ってる。これには、見えない興味に対して私たちの方法を一般化する方法を考える必要がある。

モデル

抽出を行うために、私たちはTree-Transformer Encoderという構造に基づいたモデルを開発した。このモデルはウェブページの異なるセクション間の関係に焦点を当てていて、特定のセクションがどのように関連するかを理解するのに役立つ。

私たちのモデルは、ショッピング興味の特徴も分析に取り入れてる。これによって、ウェブページの異なるセクションの意味をよりよく捉えられるし、商品タイプの抽出も改善できる。

訓練とパフォーマンス

私たちは、さまざまなショッピング興味に関連するウェブページで構成されるデータセットを使ってモデルを訓練した。実験を通じて、私たちのモデルが従来のアプローチよりもかなり良いパフォーマンスを発揮することが分かった。これによって、私たちの方法を使ってショッピング興味と商品タイプの強い関係を築くことが可能だってことを示してる。

実用的な応用

私たちのモデルの結果は、さまざまな方法で活用できる。例えば、eコマースサイトがこれらの発見を実装して、検索やおすすめシステムを強化することができる。これによって、特に購入ファネルの上位にいるお客さんが、自分の興味に合った商品を見つけやすくなるんだ。

関連研究

ウェブページからの情報抽出は、よく研究されている分野だ。過去の多くの研究は、商品詳細ページから特定の製品属性を取得することに焦点を当てている。でも、私たちのアプローチは、キュレーションされた興味ページから商品タイプを抽出してるから、構造的に単一の興味を提示する点で違うんだ。

私たちの仕事の重要性

私たちの仕事は、特定のショッピング興味に特化したウェブページから関連する商品タイプを抽出するという課題に取り組んでいて、これまであまり注目されてこなかった。ショッピング興味と商品タイプの結びつきを改善することで、お客さんにとってより効率的で楽しいショッピング体験が得られると信じてる。

今後の方向性

私たちのモデルは良い結果を示してるけど、改善できる部分があると思ってる。他の言語モデルで使用されるようなプレトレーニングフェーズを取り入れることで、言語やコンテキストのニュアンスを理解する能力を向上させられるかもしれない。最終的には、関連する商品タイプを特定するパフォーマンスが向上することにつながるだろう。

結論

まとめると、ショッピング興味に焦点を当てたウェブページから商品タイプを抽出する方法を紹介したんだ。ウェブページのユニークな構造を考慮した専門的なモデルを使用することで、関連する商品タイプを効果的に特定でき、オンラインの顧客のショッピング体験を改善できる。この研究は、この分野でのさらなる探求の扉を開き、オンラインショッピングをもっと簡単で効果的にするための新しい突破口につながるかもしれない。

オリジナルソース

タイトル: Extracting Shopping Interest-Related Product Types from the Web

概要: Recommending a diversity of product types (PTs) is important for a good shopping experience when customers are looking for products around their high-level shopping interests (SIs) such as hiking. However, the SI-PT connection is typically absent in e-commerce product catalogs and expensive to construct manually due to the volume of potential SIs, which prevents us from establishing a recommender with easily accessible knowledge systems. To establish such connections, we propose to extract PTs from the Web pages containing hand-crafted PT recommendations for SIs. The extraction task is formulated as binary HTML node classification given the general observation that an HTML node in our target Web pages can present one and only one PT phrase. Accordingly, we introduce TrENC, which stands for Tree-Transformer Encoders for Node Classification. It improves the inter-node dependency modeling with modified attention mechanisms that preserve the long-term sibling and ancestor-descendant relations. TrENC also injects SI into node features for better semantic representation. Trained on pages regarding limited SIs, TrEnc is ready to be applied to other unobserved interests. Experiments on our manually constructed dataset, WebPT, show that TrENC outperforms the best baseline model by 2.37 F1 points in the zero-shot setup. The performance indicates the feasibility of constructing SI-PT relations and using them to power downstream applications such as search and recommendation.

著者: Yinghao Li, Colin Lockard, Prashant Shiralkar, Chao Zhang

最終更新: 2023-05-23 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2305.14549

ソースPDF: https://arxiv.org/pdf/2305.14549

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事