重要な情報抽出における課題への対処
KIEデータセットの冗長性を調べて、モデル評価を向上させる。
― 1 分で読む
目次
コンピュータが文書を読み取って理解する方法の研究は、企業がデジタル情報に依存するようになるにつれて、ますます重要になってきてる。これに関する大きな部分は、キー情報抽出(KIE)として知られていて、文書から特定の詳細を引き出すことを意味してる。最近のモデル、例としてLayoutLMなんかはKIEの性能を向上させたけど、実際の文書ではラベルや例が明確でない場合も多くて、まだ課題がある。
問題
研究によると、KIEのテスト用の一般的なベンチマークは、トレーニングに使った文書とテストに使った文書の間にかなりの類似性があることが多い。このことは、モデルが新しい文書を本当に理解できているのか、ただ見たことがある情報を記憶してるのかを判断するのが難しくなるから、問題なんだ。SROIEやFUNSDのような重要なベンチマークには、似たような文書が多く含まれていて、モデルは本当の理解なしに結果を予測できちゃう。
情報の冗長性
私たちの研究は、これらのベンチマークでどれくらい情報が繰り返されるかを調べることに焦点を当てた。SROIEでは、テスト文書の約75%がトレーニング文書と非常に似ていた。FUNSDでは、その数字は16%。この重複は、モデルがこれらのテストで良い成績を出しても、実際の多様な文書にはうまく対応できない可能性を示してる。
これに対処するために、テスト用の文書をサンプリングする新しい方法を作った。これらの方法は、同じテンプレートを繰り返さない文書のより良いミックスを作るように設計されてる。文書分析用ではないモデルがこれらの新しいサンプルに直面したとき、パフォーマンスが落ちた。一方で、異なるタイプのデータを扱うように設計されたマルチモーダルモデルはパフォーマンスが落ちたけど、そこまでひどくなかった。
ビジュアルリッチ文書理解
ビジュアルリッチ文書理解(VrDU)の分野は、テキスト、レイアウト、ビジュアル機能を見て文書を構造化された情報に変換することを目指してる。たとえば、領収書やフォームのようなビジネス文書を考えると、通常さまざまな情報が詰まってて処理が必要なんだ。課題は、文書がさまざまなフォーマットで存在するため、すべてのタイプに対応するシステムを作るのが難しいこと。
多くの先進的なモデルが開発されて、まずたくさんの文書から学んでから特定のタスクで微調整される。これらのモデルはベンチマークでテストすると有望だけど、実際の状況では文書が同じパターンやフォーマットに従わないことが多くて、苦労することが多い。
関連研究
データセットのバイアスは、自然言語処理(NLP)のさまざまな分野で研究されてきた。特に、いくつかのデータセットはトレーニングとテストで使われる単語に多くの重複があることが指摘されてる。こうした重複は、モデルが効果的だと過大評価される原因になる。たとえば、名前付きエンティティ認識やコリファレンスタスクでは、似たような言い回しがモデルを混乱させて、実際よりも良く見えることがある。
現在の研究は、文書からのKIEに特に関するこれらの問題に取り組んでいる。一般的なベンチマークの冗長性に焦点を当てることで、改善の余地があることを明らかにすることを目指してる。
情報抽出モデル
過去には、文書を分析するためにさまざまな方法が使われていて、テキストとレイアウトを別々に扱ってた。でも、技術が進化するにつれて、新しいモデルはテキストとレイアウトの情報をうまく組み合わせて、文書の理解を改善できるようになった。
トランスフォーマーアーキテクチャに基づくいくつかのモデルは、文書読み取りに関連するタスクで素晴らしい結果を示してる。たとえば、LayoutLMモデルはテキストとレイアウトデータを統合して、理解を深めてる。これらのモデルは、文書の中の単語だけでなく、その情報がどのように視覚的に整理されているかでも評価してる。
データセット
SROIEとFUNSDに主に焦点を当ててるのは、異なるタイプの文書を評価できるから。
SROIEはスキャンされた領収書を中心に設計されていて、分析用に注釈の付いた1,000の領収書が含まれてる。このベンチマークの課題は、これらの領収書から重要なデータを認識して抽出すること。FUNSDは、ノイズのあるスキャンされたフォームを対象としていて、テキストを抽出して構造化することが目標。両方のベンチマークは、情報抽出モデルの過去の評価において重要だった。
問題の定義
文書からキー情報を抽出するプロセスを、すべての単語やトークンを分類するタスクとして定義してる。よく知られたタグ付け技術を使うことで、トークンを異なるカテゴリにグループ化できる。これが、モデルが各情報の意味を学ぶ方法なんだ。
でも、従来のベンチマークは、トレーニングデータとテストデータに多くの類似性があるパターンに従ってることが多い。これがモデルを混乱させ、モデルが本当に良いパフォーマンスを発揮しているのか、すでに見た情報をただ思い出しているだけなのかを判断するのが難しくなる。ビジネスの実際の現場では、文書が非常に異なるため、これがパフォーマンスの低下につながることがある。
データセットの再サンプリング
テストプロセスをより効果的にするために、SROIEとFUNSDのデータセット内の文書を詳しく調べた。似たような文書をグループ化して、トレーニングとテストの分割を更新して、これらの類似性を最小限に抑えることを目指した。SROIEでは、同じビジネスからの多くの領収書がレイアウトや共通のデータを共有していることがわかった。
同じタイプの文書がトレーニングセットとテストセットの両方に出てこないようにすることで、モデルの評価をより公正にできた。FUNSDでも、同じレイアウトのフォームをグループ化するのに似たアプローチを適用して、テストサンプルがトレーニングサンプルを反映しないようにした。
実験環境
実験では、モデルを評価するために一貫したセットアップを使用した。特定のバッチサイズとAdamオプティマイザーというトレーニング方法を使って、時間とともに学習率を調整した。このフレームワークにより、元のセットと新しく整理したデータの両方で、異なるモデルのパフォーマンスを比較できた。
元のデータセットでの結果
元のデータセットを使用して、さまざまなモデルをテストした。テキストベースのモデルは、フォームからの情報抽出に関して、マルチモーダルモデルよりも弱い結果を示した。FUNSDデータセットでは、マルチモーダルモデルが視覚情報とテキスト情報を両方考慮するため、かなり高いスコアを達成した。
SROIEではあまり顕著ではなかったものの、トレンドとしてはマルチモーダルモデルが一般的にテキストのみのモデルよりも良い結果を出していることがわかった。
再サンプリングデータセットでの結果
FUNSDとSROIEデータセットを再サンプリングして重複を減らした後、いくつかの notable outcomesが見られた。FUNSDでは、テキストだけに頼ったモデルがマルチモーダルモデルに比べてパフォーマンスが大幅に低下した。これは、視覚的およびレイアウトベースのデータがフォーム理解においてどれだけ重要であるかを示してる。
SROIEでも、テキストベースのモデルに同様の低下が見られ、モデルが冗長性の少ないデータセットに直面したときにより苦労することが強調されてる。私たちの発見は、元のセットアップがモデルが回答を記憶するのを許してしまい、実際にはデータを真に理解していなかった可能性があることを示してる。
結論
この研究は、SROIEやFUNSDのようなテストデータセットに存在する情報の冗長性の問題を浮き彫りにしてる。私たちの発見は、これらのベンチマークがモデルが実際の状況でどれだけうまく機能するかを誤って表す可能性があることを示唆してる。重複を防ぐようにデータセットを調整することで、モデルの一般化能力や異なる文書タイプを処理する能力をより正確に評価できた。
この作業は、特に文書やそのフォーマットが大きく異なる可能性がある変化の激しい世界において、情報抽出モデルの評価方法の改善が必要であることを強調してる。私たちのアプローチは、文書分析の将来の研究や開発に向けた道を提供してる。
タイトル: Information Redundancy and Biases in Public Document Information Extraction Benchmarks
概要: Advances in the Visually-rich Document Understanding (VrDU) field and particularly the Key-Information Extraction (KIE) task are marked with the emergence of efficient Transformer-based approaches such as the LayoutLM models. Despite the good performance of KIE models when fine-tuned on public benchmarks, they still struggle to generalize on complex real-life use-cases lacking sufficient document annotations. Our research highlighted that KIE standard benchmarks such as SROIE and FUNSD contain significant similarity between training and testing documents and can be adjusted to better evaluate the generalization of models. In this work, we designed experiments to quantify the information redundancy in public benchmarks, revealing a 75% template replication in SROIE official test set and 16% in FUNSD. We also proposed resampling strategies to provide benchmarks more representative of the generalization ability of models. We showed that models not suited for document analysis struggle on the adjusted splits dropping on average 10,5% F1 score on SROIE and 3.5% on FUNSD compared to multi-modal models dropping only 7,5% F1 on SROIE and 0.5% F1 on FUNSD.
著者: Seif Laatiri, Pirashanth Ratnamogan, Joel Tang, Laurent Lam, William Vanhuffel, Fabien Caspani
最終更新: 2023-04-28 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2304.14936
ソースPDF: https://arxiv.org/pdf/2304.14936
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。