Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 情報検索# コンピュータビジョンとパターン認識

マルチモーダル学習のためのOBELICSデータセットを作成中

OBELICSデータセットの作成と、それが機械学習に与える影響についての包括的な概要。

― 1 分で読む


OBELICSデータセットOBELICSデータセットについて解説するよるための深い探求。堅牢なマルチモーダルデータセットを作成す
目次

この記事では、大量のウェブドキュメントを集めて、OBELICSというデータセットを作成する方法を説明するね。このデータセットは、特にテキストと画像の両方を理解する機械学習モデルの改善を目指してる。ウェブページの収集から最終的なドキュメントのフィルタリングまでのステップを見ていくよ。

ウェブページの収集

まず、定期的にウェブページをアーカイブするサービスから最新のウェブデータを調べ始めたんだ。2020年から2023年初頭までのウェブページが含まれてる最近のコレクションに焦点を当てた。合計で約412億ドキュメントを集めたよ。

英語コンテンツの選別

その次は、英語以外のコンテンツをフィルタリングする必要があった。テキストを分析して言語を判断するツールを使ったんだ。このステップで、非英語のテキストを含むドキュメントの約63.6%を取り除けたよ。

早期のテキスト重複排除

同じウェブページが異なるコレクションで繰り返し見つかることもあるけど、内容が時間と共に変わることもあるから、どのURLを基に重複を取り除くかはまだ決めなかった。代わりに、重複する段落や繰り返されるテキストの部分を特定して取り除く技術を使ったよ。

品質分類

高品質な人間が書いたテキストだけを残すプロセスを適用した。Wikipediaのような有名なソースで訓練されたモデルを使ったんだ。ドキュメントが一定の閾値を超えたら、人間が書いたと見なした。このアプローチで、コレクションを11億ドキュメントに絞り込めたよ。

HTMLファイルの簡略化

集めたウェブページは複雑なHTMLを含んでた。データを扱いやすくするために、HTMLを簡略化したんだ。HTMLの解析を効率的にするライブラリを使って、シンプルな構造を作れるようにしたよ。

HTML構造のクリーニング

HTMLドキュメントにいくつかのクリーニング方法を適用した。例えば、改行を示す特定のタグを実際の改行に変えたり、余分なスペースをなくしたり、HTMLからコメントを削除したりした。テキストに価値を加えない不要なセクションも排除したよ。

タグの展開

イタリックや太字といった特定のタグの余分なスタイルを取り除くことにも焦点を当てた。これでテキストがすっきりして、読みやすくなったよ。スタイル付きのテキストを平易なテキストに変換したんだ。

ノードの削除

タグを展開した後、HTMLをチェックしてどのタグを残すか決めた。段落や見出しなど、ドキュメントの構造を定義する重要なタグは残したけど、ロゴやナビゲーションによく使われるような、貴重な情報を提供しないタグは削除したよ。

特定ノードの修正

フッターやナビゲーションメニューのようなHTMLの一部は、しばしば関係のない情報を含んでいるから、削除した。これらのセクションの一部をコンテンツの終わりを示すプレースホルダーテキストに置き換えた。そうすることで主要な情報に集中できたんだ。

これらのステップを踏んで、重要なコンテンツを保持しつつ、ドキュメントのサイズを大幅に削減することができたよ。

マルチモーダルウェブドキュメントの抽出

クリーニングしたHTMLファイルから、テキストと画像の両方を含むフォーマットに変換することが目標だった。これによりコンテンツの分析がより良くなったよ。

構造の保持

ウェブページの元のフォーマットを維持することを確認した。テキストと画像の出現順序を保つことで、コンテンツの関連性を理解しやすくしたんだ。

画像のダウンロード

ウェブページから画像を集めるために、効率的に画像をダウンロードするためのツールを使った。約36億の画像を集めるのを目指して、数日間で約20億の画像をダウンロードすることに成功したよ。

マルチモーダルウェブドキュメントのフィルタリング

関連するコンテンツだけがデータセットに残るように、二段階のフィルタリングシステムを作ったんだ。

ノードレベルの画像フィルタリング

このステップでは、JPGやPNGなどの一般的なフォーマットでない画像やサイズが小さすぎるものを取り除いた。ロゴや広告に関連する特定のキーワードを含む画像も削除したよ。

段落レベルのテキストフィルタリング

テキスト段落の質を向上させるために、いくつかのフィルターを適用した。あまり情報を持たない短い段落や、内容が過度に繰り返されているもの、特殊文字が多いものを取り除いた。意味のある関連性のあるテキストを保つことが目的だったんだ。

ドキュメントレベルのフィルタリング

ドキュメントレベルでも、画像がないドキュメントや画像が多すぎるドキュメントを再度フィルタリングした。これらはしばしば一貫した情報を提供しないからね。同じテキストフィルターも適用して、精度向上のために基準値の調整を行ったよ。

この extensive フィルタリングプロセスの後、約3.65億のウェブドキュメントと14億の画像がデータセットに残ったんだ。

追加のフィルタリングステップ

オプトアウトした画像の除外

コンテンツクリエイターの好みを尊重するために、クリエイターが明示的にオプトアウトした画像を取り除くことを確認した。特定の検証ツールを使用してこれを行ったよ。

画像の重複排除

データセットを最終化する前に、重複した画像がないかチェックした。画像が頻繁に現れる場合は、データセットから取り除いた。ただし、コンテキストが異なる場合に備えて、同じドキュメント内のいくつかの重複は残したよ。

NSFW画像の削除

露骨な成人コンテンツを減らすために、不適切な画像を識別するツールを使った。ミスを最小限に抑えつつデータセットの多様性を確保するための閾値を設定した。そういった画像を含むドキュメントは完全に削除したよ。

ドキュメントの重複排除

同じURLを共有しているドキュメントが似ていることが多いと認識したから、各ドキュメントの最新バージョンだけを残したんだ。

段落の重複排除

テキストをさらにクリーンアップするために、同じドメイン内のドキュメントで繰り返される段落をチェックした。これで、価値を追加しない一般的なスパムフレーズやコンテンツを取り除くことができたよ。

すべてのフィルタリングステップを経て、最終的なデータセットは約1.41億のドキュメントと3.53億の画像で構成され、その大多数がユニークだったんだ。

OBELICSの分析

マルチモーダルウェブドキュメントの例

このセクションでは、OBELICSデータセットに見られるドキュメントの種類の例を提供するよ。このデータセットは様々なトピックやフォーマットをキャッチしてる。

トップドメイン

どのドメインが私たちのデータセットに最も多くのドキュメントを提供したかを観察した。この分析は、コンテンツのソースを理解するのに役立つよ。

トピックモデリング

データセット内にあるさまざまなトピックを見てみて、収集したドキュメントの中のトレンドやテーマを明らかにした。これが興味のある分野や研究の可能性を特定するのに役立つんだ。

倫理的考慮

プロジェクトの初めに、私たちの働きを形作る倫理ガイドラインについて考えた。ユーザーの同意やコンテンツクリエイターの選択を尊重する価値観を取り入れることを目指したよ。

透明性と文書化

大規模なウェブデータセットを扱うのは、しばしば複雑で透明性が欠けてることを認識した。それに対処するために、データセットのサブセットを探索するための視覚ツールを開発して、その構造を理解できるようにしたんだ。

バイアスへの対応

ウェブから収集された多くのデータセットと同様に、OBELICSもバイアスや過小評価を含む可能性がある。私たちは、このデータセットがさらなる監査に役立ち、そういった問題を特定して軽減することを望んでいると表明したよ。

モデル評価

モデルの評価の一環として、性別や人種に関する潜在的なバイアスについて出力をテストした。この体系的な評価によって、トレンドを分析し、異なる特徴がどのように表現されているかを理解することができたんだ。

モデル構築

アーキテクチャの概要

既存のアーキテクチャに基づいて機械学習モデルを構築し、画像とテキスト処理のために様々なコンポーネントを組み合わせた。このモデルは、私たちが作成したマルチモーダルドキュメントから学ぶために設計されたよ。

トレーニングの詳細

トレーニングプロセスには複雑なハイパーパラメータが関与していて、最適なパフォーマンスを確保するために慎重に選定した。データセットを効果的に活用し、モデルの予測や出力を向上させることを目指したんだ。

パフォーマンス評価

トレーニング中、損失のスパイクなどの課題に直面した。それに対処するために、以前のチェックポイントからトレーニングを再開し、パラメータを調整したよ。

データの混合

データセットと他の有名なデータセットを組み合わせて、モデルをトレーニングした。この混合は、学習のバランスの取れたアプローチを提供することを目指してた。

コンピュートリソース

トレーニングにはかなりの計算力が必要だった。高性能のGPUを使い、数日間トレーニングを実行してデータセットからしっかり学べるようにしたんだ。

結論

この記事では、OBELICSデータセットを構築するために行った広範なステップを概説した。ウェブページの収集から不要なコンテンツのフィルタリングまで、高品質なリソースを作ることに注力したよ。倫理的考慮や透明性の取り組みは責任あるデータプラクティスへのコミットメントを示してる。データセットの継続的な分析は、マルチモーダル学習とそのアプリケーションの理解を深めることを目指してるんだ。

オリジナルソース

タイトル: OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents

概要: Large multimodal models trained on natural documents, which interleave images and text, outperform models trained on image-text pairs on various multimodal benchmarks. However, the datasets used to train these models have not been released, and the collection process has not been fully specified. We introduce the OBELICS dataset, an open web-scale filtered dataset of interleaved image-text documents comprising 141 million web pages extracted from Common Crawl, 353 million associated images, and 115 billion text tokens. We describe the dataset creation process, present comprehensive filtering rules, and provide an analysis of the dataset's content. To show the viability of OBELICS, we train vision and language models of 9 and 80 billion parameters named IDEFICS, and obtain competitive performance on different multimodal benchmarks. We release our dataset, models and code.

著者: Hugo Laurençon, Lucile Saulnier, Léo Tronchon, Stas Bekman, Amanpreet Singh, Anton Lozhkov, Thomas Wang, Siddharth Karamcheti, Alexander M. Rush, Douwe Kiela, Matthieu Cord, Victor Sanh

最終更新: 2023-08-21 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2306.16527

ソースPDF: https://arxiv.org/pdf/2306.16527

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事