データ収集で野生動物密売に立ち向かう
オンラインで野生動物の密輸を追跡・分析する新しいアプローチ。
― 1 分で読む
野生動物の密輸は、自然や人々に悪影響を及ぼす深刻な問題だよ。多くの違法な野生動物製品がオンラインで売られていて、これが当局にとっては阻止するのが難しい課題になってる。インターネットは密売人にとって製品を宣伝して売るのが簡単な手段を提供していて、その結果、デジタル痕跡を残すことになるんだ。この痕跡を調べることで、これらのネットワークがどのように機能しているか、そしてどうやってそれを妨害できるかを学べるんだ。
でも、これらの広告について情報を集めるのは簡単じゃない。オンラインマーケットプレイスにはたくさんの商品があって、どの広告が本物の野生動物に関連してるのかを特定するのが難しいんだ。それに、データ量が膨大だから、情報を集めてフィルタリングし、保管するための効果的な方法が必要だよ。
私たちのアプローチ
私たちはオンラインでの野生動物密輸に関するデータを集める新しい方法を開発したんだ。この方法は、関連する広告を自動的に見つけて集めるデータ収集パイプラインを含んでる。このパイプラインは、特定のツールを使ってオンライン広告を検索し、機械学習モデルを使ってどの広告が野生動物密輸に関連しているかを特定するんだ。
このアプローチを使って、私たちは同様のデータセットの中で最大のものを作ったよ。41の異なるオンラインマーケットプレイスから集めた約100万の広告が含まれていて、20の言語で235種の野生動物をカバーしてるんだ。
データ収集の課題
オンラインマーケットプレイスは商品で溢れていて、野生動物に関連する広告を探すのは難しいこともある。例えば、「ブラジルの青いオウム」を検索すると、実際の鳥ではなくて絵葉書やおもちゃが返ってくるかもしれない。だから、データ収集の努力を改善するためには、無関係な広告をフィルタリングすることが重要なんだ。
機械学習モデルは正しい広告を特定するのに役立つけど、ラベル付きデータがあまりないから、これらのモデルをトレーニングするのは難しいんだ。密売人も自分たちの活動を隠そうとするから、私たちのタスクはさらに複雑になる。
役立つデータを集めるためには、整理されていない商品ページから、商品のタイトル、価格、画像など、販売されているアイテムに関する有用な情報を抽出する必要があるんだ。異なるウェブサイトはこの情報を様々な方法で提示するから、一貫したデータ抽出が課題になるんだ。
データ収集パイプラインの構築
私たちのデータ収集パイプラインは、異なるウェブサイトから商品ページを集めて有用な情報を抽出するように設計されているんだ。特定の種や特定のオンラインプラットフォームに焦点を合わせる場合でも、パイプラインを適応させられるように柔軟性を持たせたんだ。収集したデータはクラウドストレージに保存されていて、後で簡単にアクセスして分析できるようになってる。
パイプラインの効果を示すために、34日間にわたってデータを収集して、ほぼ100万の広告を得たよ。この努力には、シードURLから始めてさらにリンクを見つけて商品ページをダウンロードするウェブクローラーを使ったんだ。
シード選択
データを集めるために、クローラーが探索するための「シード」URLのリストから始めたんだ。絶滅危惧種に関連する特定のキーワードを使って追加のURLを生成して、野生動物関連広告を包括的にカバーできるようにしたよ。国際的な wildlife protection agency から提供された絶滅危惧動物のリストを作成するために専門家とも協力したんだ。
データの収集
私たちが使ったウェブクローラーは、関連リンクのみに焦点を合わせて効率よくスコープクローリングを行うように設計されているんだ。ページをダウンロードしてそこからリンクを抽出することで、無関係なコンテンツに邪魔されることなく、体系的にデータを集められるんだ。
情報の抽出
広告のあるページのセットを持ったら、重要な情報を抽出するタスクが待ってる。この情報には、分析に重要な価格や売り手の詳細が含まれてるんだ。異なるサイトで見つかる多様なフォーマットからこのデータを抽出するために、いろんな戦略を使ったよ。
抽出プロセスを簡単にするために、HTMLコンテンツを解析して主要な属性を自動的に特定するツールを利用したんだ。それに、利用可能な場合はページの埋め込まれたメタデータも分析して、さらに構造的な情報を集めるのに役立てたよ。
無関係な製品のフィルタリング
大量のデータを抽出した後、すべての商品が関連しているわけじゃないんだ。本物の動物や動物の部位に関与しない広告がたくさんある。これに取り組むために、テキスト分類技術を使ったフィルタリング方法を実装したんだ。特に、機械学習モデルを使って、販売されている商品の性質に基づいて広告を分類できるようにしたんだ。
例えば、本物の野生動物製品とおもちゃやプリントのようなアイテムを区別するために、分類器をトレーニングしたんだ。ゼロショット分類アプローチを使ったから、複数の言語でこのタスクを効果的に行うのにラベル付きデータは必要なかったよ。
収集パイプラインの性能
私たちのパイプラインはいくつかの大きな課題に直面したけど、かなりのデータを集めることができたよ。34日間の運用で、クローラーは1100万ページ以上を取得して、ページごとの平均応答時間は約700ミリ秒だった。このデータを迅速に集めることはできたけど、ページをホストしているサーバーを圧倒しないように注意したんだ。
集めたデータから、たくさんのページが取得されたけど、本物の野生動物製品の広告はほんの少ししか含まれていなかったことがわかったよ。これを通じて、大量のデータを効率的にふるい分ける方法の重要性を強調できたんだ。
データ分析
私たちがまとめたデータセットには、URL、ドメイン、データ取得の時間などの情報が含まれてる。それぞれのレコードは、オンラインの野生動物取引に関する洞察を提供していて、最も頻繁に広告される種や異なる市場での価格の範囲を示してるんだ。
フィルタリングシステムを通じて、1000以上の製品を本物の動物と特定し、何万もの動物の体の部位として特定したよ。分類プロセスは完璧じゃないけど、大規模データ収集に対応できる自動化された方法の必要性を際立たせてるんだ。
今後の方向性
今のパイプラインはオンラインでの野生動物密輸を理解するための大きな一歩だけど、改善の余地はたくさんあるんだ。ゼロショット分類の方法を強化し、より高い精度のためにさらに高度なモデルを探る計画だよ。
それに、深層学習技術を統合してデータ収集方法をより堅牢にしたいと思ってる。これによって、ウェブサイトが時間とともに変わっても、情報の抽出がより信頼できるものになるかもしれない。
結論
私たちの仕事は、オンラインマーケットプレイスにおける野生動物密輸のデータを集める重要な取り組みを示しているよ。スケーラブルで柔軟なデータ収集パイプラインを構築することで、この重要な問題について貴重な洞察を提供することを目指してるんだ。私たちのソースコードや方法を公開することで、他の人たちも違法な野生動物取引に立ち向かうためのデータセットを作成し、分析するのに参加してくれることを期待してるよ。
今後も研究を続けながら、技術を洗練させ、データ収集の努力を拡大していくつもりだ。野生動物密輸との戦いには革新的な解決策とコラボレーションが必要で、私たちはこの重要な原因に貢献することを約束するよ。
タイトル: A Flexible and Scalable Approach for Collecting Wildlife Advertisements on the Web
概要: Wildlife traffickers are increasingly carrying out their activities in cyberspace. As they advertise and sell wildlife products in online marketplaces, they leave digital traces of their activity. This creates a new opportunity: by analyzing these traces, we can obtain insights into how trafficking networks work as well as how they can be disrupted. However, collecting such information is difficult. Online marketplaces sell a very large number of products and identifying ads that actually involve wildlife is a complex task that is hard to automate. Furthermore, given that the volume of data is staggering, we need scalable mechanisms to acquire, filter, and store the ads, as well as to make them available for analysis. In this paper, we present a new approach to collect wildlife trafficking data at scale. We propose a data collection pipeline that combines scoped crawlers for data discovery and acquisition with foundational models and machine learning classifiers to identify relevant ads. We describe a dataset we created using this pipeline which is, to the best of our knowledge, the largest of its kind: it contains almost a million ads obtained from 41 marketplaces, covering 235 species and 20 languages. The source code is publicly available at \url{https://github.com/VIDA-NYU/wildlife_pipeline}.
著者: Juliana Barbosa, Sunandan Chakraborty, Juliana Freire
最終更新: 2024-07-26 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2407.18898
ソースPDF: https://arxiv.org/pdf/2407.18898
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。