アイデンティティ確認用のDocXPand-25kデータセットを紹介するよ
オンラインサービスをサポートするための身分証明書分析用の新しいデータセット。
― 1 分で読む
目次
身分証明書の画像分析は、銀行口座の開設や保険の申し込みなど、多くのオンラインサービスにとって重要なんだ。最近では、画像内のドキュメントを見つけたり、テキストを認識したり、詐欺を検出したりする方法の改善に焦点を当てた研究がたくさん行われてる。でも、研究者たちは大きなデータセットが不足してるせいで、方法をテストしたり比較したりするのに苦労してる。これは主にプライバシー法やセキュリティの懸念から来てるんだ。
DocXPand-25kデータセット
この論文では、24,994枚のラベル付き身分証明書画像で構成されるDocXPand-25kデータセットを紹介するよ。このドキュメントは、4つの身分証明書、2つの居住許可証、3つのパスポートを含む9つの架空のIDデザインを表すカスタムテンプレートを使って作成されたんだ。これらのIDは名前や日付などの偽の個人情報が含まれていて、視覚的な見た目やテキストのレイアウトが異なるんだ。
多様な背景を確保するために、リアルな背景から撮影された約5,800枚の画像を集めたよ。この画像を生成するために使ったソフトウェアはオープンソースだから、他の人も使えるようになってるんだ。
銀行・保険における重要性
銀行や保険会社は、顧客の身分を確認するために厳しい規則に従わなきゃいけないんだ。これを簡単にするために、ドキュメントを分類したり、画像内で見つけたり、テキストや視覚的な特徴を抽出したりする自動化された方法が開発されてきたよ。これらのシステムは、特にモバイルデバイスで近年一般的になってる。
研究が進んでるにもかかわらず、テストや比較に使える大規模な公開データセットがまだ不足してるから、研究者たちは結果を再現するのが難しい状況なんだ。
データセットの目的
DocXPand-25kデータセットの主な目的は、ID分析の様々な方法を評価するためのリソースを提供することだよ。具体的には以下のことが含まれる:
- IDタイプの分類
- 画像内でのIDの位置特定
- 写真や署名などの特定の特徴の検出
- ID上のテキストフィールドの認識
関連する研究
これまでのデータセット、例えばMIDVファミリーは、ID分析研究にかなりの影響を与えてきたんだ。例えば、2019年にリリースされたMIDV-500データセットは、50種類の異なるIDを含んでいた。しかし、画像の解像度やキャプチャ条件にバラつきがあったという制限があったんだ。
その後のMIDV-2019やMIDV-2020データセットは、これらの制限を改善しようとして、ドキュメントのクラスやキャプチャ条件にもっと多様性を持たせたけど、さらに多くの例を作成するためのしっかりしたツールはまだ提供されてないんだ。
影響力が限られた他のデータセットもいくつかあるけど、ほとんどは取得条件の高い変動性や、効果的なベンチマーキングを可能にする豊富なラベル付けを組み合わせてないんだ。
データセットの設計
私たちは、リアルな条件を反映したデータセットを作ることを目指したんだ。私たちのデータセットは、名前、生年月日、写真などの必要な詳細を含む様々な身分証明書を示してる。IDはタイプ、発行国、発行期間に基づいて分類したよ。
DocXPand-25kデータセットには、プロのグラフィックデザイナーによって特定のガイドラインに従って設計された9つの架空のドキュメントクラスが含まれてる。このテンプレートは、視覚的特徴やレイアウトの多様性を含むように注意して作られたんだ。
ドキュメント画像生成
ドキュメント画像を生成するプロセスは、テキストや画像を追加する場所をマークしたテンプレートの設計から始まったんだ。私たちは、実際の身分データを使用せずにテキストフィールドのコンテンツを生成するジェネレーターを作成したよ。これでプライバシーの問題を避けつつ、リアルに見えるドキュメントが得られたんだ。
個人情報にはランダムに生成された値を使用し、バーコードやその他の視覚的要素を作成するために追加のツールも使ったよ。リアリズムをさらに高めるために、AIを使って身分写真用の顔を生成して、多様な表現を確保したんだ。
ドキュメントを背景に統合
私たちの画像をさらにリアルにするために、リアルなIDドキュメントが日常の状況にある写真を数千枚集めたんだ。私たちのソフトウェアは、これらの画像の実際のIDを生成したドキュメントに置き換えて、背景にうまく溶け込むようにしてる。最終的な画像には個人情報が含まれないように気をつけたよ。
この統合プロセスによって、私たちのデータセットは他と差別化されて、様々なバリエーションや幅広い背景と条件を持つことができたんだ。
データセットの形式とラベル
画像と一緒に、JSON形式の詳細な説明ファイルを提供してるよ。各画像には、以下のような豊富なラベルが含まれてる:
- ドキュメント分類
- 画像内のIDの位置座標
- 写真やバーコードなどの特徴の位置
- 各テキストフィールドの値
合計で、データセットは15のドキュメントクラスにわたる24,994枚のラベル付き画像を含み、分析のために237,895のラベル付きテキストフィールドを提供してるんだ。
視覚的類似性分析
私たちのデータセットがリアルな条件を反映しているか確認するために、ユーザーがキャプチャしたリアルID画像のプライベートコレクションと比較したよ。この分析は、私たちのデータセットが既存のシステムで処理された実際の画像とどれほど視覚的に似ているかに焦点を当てたんだ。
視覚的類似性を測定する方法を使って、私たちのデータセットが業界システムが通常分析する画像のタイプに密接に一致していることがわかったんだ。
評価メトリクスとベースライン
このセクションでは、ID分類、ローカリゼーション、テキスト認識に関する様々な方法のパフォーマンスを評価するためのメトリクスと基本テストを概説するよ。
ID分類
ID分類は、画像内のドキュメントのタイプを視覚的および意味的な要素に基づいて特定することだよ。私たちは、データセットをトレーニング、バリデーション、テストグループに分けて、背景の重複がないことを確認したんだ。
トレーニングセットには18,000枚以上の画像が含まれていて、バリデーションとテストセットにはそれぞれ約3,000枚の画像が含まれてる。分類パフォーマンスを評価するために、正しく分類されたドキュメントの数と総ドキュメント数を比較することに注目してるよ。
IDローカリゼーション
ドキュメントローカリゼーションは、画像内のドキュメントの位置を特定することを目指してる。私たちは、ドキュメントの形状を4つのコーナーで定義された四角形として考えてるんだ。
ローカリゼーションの精度は、予測された位置と画像内のドキュメントの実際の位置を比較することで測定できるよ。
テキストフィールド認識
テキスト認識では、IDが画像内で既に位置特定されていると仮定するよ。このフィールドからテキストをどれだけ認識できるかをエラーレートに基づいたメトリクスを使って評価してるんだ。
私たちのデータセットには、数値フィールドや英数字フィールドを含む異なるカテゴリのテキストフィールドが存在してるよ。
結論
DocXPand-25kデータセットは、ドキュメント分析方法用の信頼できるデータセットの開発における重要な成果を示してる。リアルなID画像を反映した多様なドキュメントタイプや背景を提供していて、視覚的類似性の比較によっても示されてる。分類、ローカリゼーション、テキスト認識タスクのベースライン評価を提供してるけど、さらなる改善や調査を奨励してるんだ。このデータセットが、自動的な身分確認技術に取り組む研究者たちにとって貴重なリソースになることを願ってるよ。
タイトル: DocXPand-25k: a large and diverse benchmark dataset for identity documents analysis
概要: Identity document (ID) image analysis has become essential for many online services, like bank account opening or insurance subscription. In recent years, much research has been conducted on subjects like document localization, text recognition and fraud detection, to achieve a level of accuracy reliable enough to automatize identity verification. However, there are only a few available datasets to benchmark ID analysis methods, mainly because of privacy restrictions, security requirements and legal reasons. In this paper, we present the DocXPand-25k dataset, which consists of 24,994 richly labeled IDs images, generated using custom-made vectorial templates representing nine fictitious ID designs, including four identity cards, two residence permits and three passports designs. These synthetic IDs feature artificially generated personal information (names, dates, identifiers, faces, barcodes, ...), and present a rich diversity in the visual layouts and textual contents. We collected about 5.8k diverse backgrounds coming from real-world photos, scans and screenshots of IDs to guarantee the variety of the backgrounds. The software we wrote to generate these images has been published (https://github.com/QuickSign/docxpand/) under the terms of the MIT license, and our dataset has been published (https://github.com/QuickSign/docxpand/releases/tag/v1.0.0) under the terms of the CC-BY-NC-SA 4.0 License.
著者: Julien Lerouge, Guillaume Betmont, Thomas Bres, Evgeny Stepankevich, Alexis Bergès
最終更新: 2024-07-30 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2407.20662
ソースPDF: https://arxiv.org/pdf/2407.20662
ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://github.com/QuickSign/docxpand/
- https://github.com/QuickSign/docxpand/releases/tag/v1.0.0
- https://github.com/joke2k/faker
- https://github.com/zxing-cpp/zxing-cpp
- https://github.com/AUTOMATIC1111/stable-diffusion-webui
- https://github.com/richzhang/PerceptualSimilarity
- https://github.com/sirfz/tesserocr
- https://github.com/Shreeshrii/tessdata_ocrb
- https://github.com/Shreeshrii/tessdata