スキャンした法律文書のテキストセグメンテーションを改善する

背景と文献レビュー
アプローチと方法論
実験と結果
ビジュアル比較
結論
オリジナルソース
参照リンク

ドキュメントをスキャンすると、手書きのテキストが印刷されたテキストと重なってしまうことがあるんだ。これ、コンピュータプログラムが正しくドキュメントを読み取るのを難しくしちゃうんだよね。印刷されたテキストをデジタルテキストに変換するプロセスは、光学式文字認識（OCR）って呼ばれてる。手書きと印刷のテキストが重なるとOCRがうまく動作できなくて、後で情報を取得する時にエラーが出ることがあるんだ。

過去の研究では主に2つの方法があったんだけど、手書きだけか印刷されたテキストだけを分類するか、手書き、印刷、背景の3種類のテキストを特定しようとするかのどっちかだったんだ。だから、手書きが印刷のテキストと重なると、プログラムは一つのタイプを選んで、もう一方を見逃しちゃうんだ。この研究では、手書きと印刷されたテキストを分ける問題に対処する新しい方法を考えたんだ。

私たちの主な目標は、特に重なっている部分からすべてのセクションのテキストを取得することなんだ。それを助けるために、実際の法的文書から得られたSignaTR6Kという新しいデータセットを作ったんだ。それに加えて、手書きと印刷されたテキストをうまく分けられる新しいモデルも作ったんだ。私たちの最良の設定は、2つのデータセットで従来の方法よりも17.9%と7.3%良い結果を出したよ。

SignaTR6Kデータセットは、私たちのウェブサイトから無料でダウンロードできるんだ。紙のドキュメントをデジタル化する努力と、それに伴う課題は、研究とビジネスの両方の分野でホットなトピックなんだ。このデジタルシフトは、紙のドキュメントをスキャンして、そのコンテンツを自然言語処理（NLP）を使って様々なタスクに利用できるようにすることを意味するんだ。たとえば、法的文書の中で名前を認識するとかね。

私たちが興味を持っている文書は、歴史的な文書や法的文書、契約書、医療記録、処方箋など、いろんな場所から来てるんだ。過去にもこのテーマに関して研究はあったけど、コンピュータができることと人間が混合テキストに対処するときにできることの間には大きなギャップがまだ残っているんだ。

例えば、弁護士は法的文書にサインをすることが多くて、そのサインが重要な印刷されたテキストを隠しちゃうことがあるんだ。これがOCRツールにとって文字を認識するのを難しくして、弁護士やその事務所についての情報を探すのが大変になっちゃう。裁判所の文書では、サインが情報をブロックすることがあるから、手書きのメモと印刷された詳細をきちんと分けることが重要なんだ。

裁判所の文書は最初に印刷されて、いろんな人がサインやメモを追加することで作成されるから、テキストが重なり合っちゃうんだ。これがOCRから出てくるデータの質を下げてしまう。私たちの研究では、手書きと印刷されたテキストを分ける際の課題を解決することを目指しているんだ。人間が文書を読む方法と現在の方法の間にはまだ大きなギャップがあるから、テキストが重なる部分でのパフォーマンスを向上させることに焦点を当てて、新しいデータセットを提供したいんだ。

要するに、私たちの研究は以下の貢献を提供してるんだ：

200の法的文書を含むSignaTR6Kデータセットを紹介するよ。ピクセルレベルの注釈も付いてる。
データセットには、手書きのサイン、手書きのメモ、重なりがちな印刷されたテキストが含まれてる。
トレーニングとテスト用に、データ増強を通じて6,000の文書を含む大きなデータセットも生成したよ。
テキストセグメンテーションのパフォーマンスを向上させるために、さまざまな特徴を活用した新しいモデルを提案するよ。
最後に、結果を向上させるために役立つ新しい損失関数をFusion lossとして紹介するよ。

背景と文献レビュー

テキストセグメンテーションは、スキャンしたドキュメントにどんなタイプのテキストがあるかを決定するプロセスとして定義されるんだ。手書きのテキスト、印刷されたテキスト、または空白のスペースなどね。スキャンした文書は、古い紙やマイクロフィルムなど、いろんなソースから来ることがあるんだ。

手書きのテキストが印刷されたテキストと重なると、どのクラスにピクセルが属するかを判断するのが難しくなるんだ。多くの過去の研究は、手書きテキストと印刷テキストのセグメンテーションに焦点を当ててきたけど、これらの研究には制限があったんだ。

一部はピクセルデータが手書きかどうかを判断することだけに焦点を当ててたけど、他のはピクセルを手書き、印刷、または背景に分類する三クラスアプローチを使用してた。こうすると、どのモデルも重なったピクセルを認識するのが難しくなっちゃうんだ。

手書きのテキストが印刷されたテキストと重なるドキュメントをOCRが読み込もうとすると、パフォーマンスが悪くなっちゃう。デジタル化を良くするためには、異なるタイプのテキストを明確に識別できる画像処理の新しい方法を見つける必要があるんだ。

過去の研究では、手書きと印刷されたテキストを区別するために様々な技術が使われてきたよ。初期の方法は、タスクを二項分類として扱って、異なる分類器を使用し、接続成分に焦点を当ててた。最近では、他の研究が畳み込みニューラルネットワークと条件付きランダムフィールドを使用して接続成分を分ける方法をとってるけど、この方法ではピクセルのグループに単一のクラスを割り当てちゃって、各ピクセルを見ることができないんだ。これ、重なったテキストにはうまく対応できない。

ピクセルレベルのセグメンテーション方法が紹介されて、テキストをより効果的にセグメント化することに焦点を当ててるんだ。エンコーダ-デコーダアーキテクチャを使ったアプローチが最近一般的になってきて、U-Netスタイルのアーキテクチャがテキストセグメンテーションタスクを改善するために適用されてるんだ。

私たちは、重なったテキストを含む法的文書の手動注釈データセット、SignaTR6Kをリリースすることによって貢献するつもりだ。私たちのアプローチは、新しいクラスに重なるピクセルを持たせることができる四クラスの定式化を使って、セグメンテーションパフォーマンスを向上させるんだ。それに加えて、細部の特徴とセマンティックセグメンテーションのパスを組み合わせたMixed Feature Model（MFM）も提案するよ。このモデルは、広範な特徴と細かい詳細の両方を活用できるから、良い結果が得られるんだ。

SignaTR6Kデータセット

セグメンテーションモデルを効果的にトレーニングしテストするには、高品質なラベル付きデータセットが必要なんだ。しかし、手書きと印刷されたテキストの両方を含む公開データセットはあまりないんだ。過去の研究は、主に印刷されたテキストのみ、手書きのテキストのみ、または重ならないテキストを含むデータを組み合わせて合成データセットを作ることに頼ってきたんだ。

ドキュメントには、フォントや品質など、さまざまな要因で違いが出ることがあるんだ。元の文書の品質が悪かったり、スキャンプロセスで解像度が失われたりすると、テキストセグメンテーションが難しくなるんだ。ラベリング中にエラーが発生することもあるしね。

このギャップを埋めるために、私たちはThomson Reuters Legal Content Servicesによって作られた法的文書から得られた新しいデータセット、SignaTR6Kを紹介するよ。このデータセットは、手書きのテキストと印刷されたテキストが重なり合っている文書とサインを特徴としているんだ。文書は異なる組織から来ていて、それぞれ独自のフォーマットを持ってるし、異なる個人が文書をラベリングしてるから、印刷されたスタイルや手書きのスタイルがさまざまなんだ。しかも、各文書は手動で確認されているから安心だよ。

大量の文書を手動で注釈付けするのは時間がかかるから、データ合成と増強技術を使ってデータセットのサイズを増やしたんだ。オリジナル文書から、重なるテキストの新しいサンプルを作るために、いろんな一般的なクロップ増強の方法を使ったんだ。

私たちはテスト用にいくつかのサンプルを取り置いたよ。それぞれのサンプルは、グレースケールの文書画像とテキストタイプに関連付けられた手動注釈の真実ラベルで構成されてる。画像は256×256ピクセルにクロップされていて、通常は重なったテキストを含んでるんだ。

このデータセットは、モデルのトレーニングや異なるタスクのために事前にトレーニングされたモデルのファインチューニングに利用できるよ。

アプローチと方法論

このセクションでは、私たちのアプローチと、セマンティックセグメンテーションと細部特徴のパスを組み合わせたアーキテクチャを選んだ理由、そして使用したさまざまな損失関数について詳しく説明するよ。

モデルアーキテクチャ

オブジェクトセグメンテーションの人気のモデルはU-Netって呼ばれてるんだ。これは、全結合層がないフルコンボリューショナルネットワークに基づいてる。U-Netアーキテクチャには2つの主要な部分があって、エンコーダとデコーダがあるんだ。

エンコーダは元の画像を取り込み、その次元を縮小しながら特徴を抽出するんだ。一方、デコーダはダウンサンプルされた画像を元のサイズに戻す役割を果たすよ。最終的な出力は、各ピクセルに適切なラベルを付けるんだ。

私たちのモデルを改善するために、さまざまなネットワークサイズを使用したんだ。ベースラインとして、軽量なFCNモデルをテストした後、VGG16やInceptionV3、ResNet34のようなより高度なバックボーンを使ってパフォーマンスを向上させたんだ。このモデルたちを適用したことで、結果が改善されたんだ。

四クラス定式化

ほとんどの過去の研究では、テキストセグメンテーションのために二項または三クラスアプローチを使用してきたんだ。二項分類ではモデルがテキストの一種類しか特定できない。三クラスアプローチの場合、重なったピクセルは一つのクラスにのみ割り当てられることになるから、エラーが発生しちゃう。

私たちは、手書きのテキストと印刷されたテキストに属するピクセルを示す重なりクラスを含む四クラスモデルを提案するよ。このアプローチは、重なった領域を検出することに焦点を当ててるんだ。私たちの定式化では、背景、手書きのテキスト、印刷されたテキスト、重なりクラスがあるよ。

セマンティックセグメンテーションパス（SSP）

セマンティックセグメンテーションパス（SSP）はU-Netベースのアーキテクチャを採用してるんだ。ダウンサンプリング層を使用して画像の高レベルな特徴を捉えるんだ。エンコーダとデコーダは対称的に設計されていて、エンコーダが画像を16×16ピクセルまでダウンサンプルしたら、デコーダはそれを256×256ピクセルに戻すんだ。

最適なバックボーンを見つけるために、いろんなアーキテクチャをテストして、ResNet34とInceptionV3がより多くの学習可能なパラメータと残差接続を含んでいるから、セグメンテーションの後半の段階でも細かい詳細を持ち越すのに役立つってことを確認したんだ。

ファインフィーチャーパス（FFP）

SSPはダウンサンプリング層を使って明確なオブジェクトをセグメント化するのには優れてるけど、細かい詳細を見逃しちゃうことがある。だから、ダウンサンプリングを避けて低レベルの詳細を捉えることに焦点を当てた細部特徴パス（FFP）を導入したんだ。

FFP内では、モデルが必要に応じて前の層からの出力を活用できるように残差接続を実装したよ。このパスは、テキストセグメンテーションに必要な細かい特徴を取得するのにうまく機能するんだ。

ミックスフィーチャーモデル（MFM）

私たちは、SSPとFFPの両パスを組み合わせてMixed Feature Model（MFM）を作ったんだ。こうすることで、ハイレベルとローレベルの特徴を両方とも効果的に捉えることができるんだ。それぞれのパスの出力は、最終的な畳み込み層の前で統合されるから、セグメンテーションパフォーマンスが向上するよ。

ポストプロセッシングとヒューリスティック法

過去の研究では、研究者たちは条件付きランダムフィールド（CRF）をポストプロセッシングステップとして使用して、隣接ピクセルに基づいてピクセルのラベリングを洗練させてきたんだ。しかし、私たちは、従来のCRFが誤ってピクセルを再ラベルすることで悪化することが多いってことに気づいたんだ。

それに対抗するために、私たちはポストプロセッシングのためのヒューリスティックを考案したんだ。これにより、再ラベリングプロセスは主に手書きまたは印刷クラスに適応する背景ピクセルに限定されて、逆のことを防ぐんだ。このアプローチは、セグメンテーションパフォーマンスの改善を一般的に示すことができたよ。

損失関数

スキャンしたドキュメントには、背景ピクセルがたくさん含まれていることが多いから、クラスの表現にバランスが取れないことがあるんだ。これに対処するために、私たちはさまざまな損失関数と重み付けを探求したんだ。よく考えた結果、異なる損失関数の強みを組み合わせて全体的なパフォーマンスを向上させるFusion Lossを導入したんだ。

実験と結果

評価指標

私たちは、セグメンテーションタスクにおけるモデルのパフォーマンスを評価するためにIoU（Intersection over Union）を使用したんだ。各クラスのIoUは、モデルがピクセルを予測する精度を、グラウンドトゥルースと比較して測定するもので、こうやって確認してるよ。

試験したアーキテクチャ

まずは、ベースラインとして軽量のFCNモデルでテストを始めて、その後は四クラスバージョンを実装したんだ。それから、VGG16、InceptionV3、ResNet34のようなさまざまなバックボーンを持つSSPアーキテクチャをテストしたよ。

ポストプロセッシングの設定

3つの設定でテストしたんだ。ポストプロセッシングなし、標準的なCRFポストプロセッシングあり、私たちのヒューリスティックアプローチであるCRFHありの設定だよ。

結果

私たちの結果は、三クラスから四クラスへの移行がIoUスコアを改善したことを示してる。大きなモデルは一般により良い結果を提供して、ResNet34とInceptionV3が最高のパフォーマンスを達成したよ。

CRFHヒューリスティックは、従来のCRFポストプロセッシングによる攻撃的な再ラベリングを修正して、IoU値を改善することが多かったんだ。

ビジュアル比較

私たちのアプローチのサンプルとグラウンドトゥルース、過去の作品とのビジュアル比較を示すよ。私たちのモデルは、手書きと印刷されたテキストの重なり合う領域の処理において、明らかな改善を示すことができたんだ。

結論

手書きのテキストを印刷されたテキストから分けることは、スキャンしたドキュメントを読みやすく、理解しやすくするために重要なんだ。これらのテキストが重なると、タスクはさらに難しくなる。私たちの研究では、新しいデータセットであるSignaTR6Kを導入し、これらのテキストをよりうまく分けるためのミックスフィーチャーモデルアプローチを提案したよ。

新しいヒューリスティックメソッドと損失関数も含めて、トレーニングを加速しつつ精度を向上させることができたんだ。私たちの結果は、以前の研究に比べて明らかな改善を示していて、私たちの方法の効果を証明しているよ。

スキャンした法律文書のテキストセグメンテーションを改善する

新しい方法で、重なった手書きと印刷されたテキストのOCRでのテキスト分離が改善されたよ。

背景と文献レビュー

SignaTR6Kデータセット

アプローチと方法論

モデルアーキテクチャ

四クラス定式化

セマンティックセグメンテーションパス（SSP）

ファインフィーチャーパス（FFP）

ミックスフィーチャーモデル（MFM）

ポストプロセッシングとヒューリスティック法

損失関数

実験と結果

評価指標

試験したアーキテクチャ

ポストプロセッシングの設定

結果

ビジュアル比較

結論

参照リンク

参照トピック

スキャンした法律文書のテキストセグメンテーションを改善する

新しい方法で、重なった手書きと印刷されたテキストのOCRでのテキスト分離が改善されたよ。

#背景と文献レビュー

#SignaTR6Kデータセット

#アプローチと方法論

#モデルアーキテクチャ

#四クラス定式化

#セマンティックセグメンテーションパス（SSP）

#ファインフィーチャーパス（FFP）

#ミックスフィーチャーモデル（MFM）

#ポストプロセッシングとヒューリスティック法

#損失関数

#実験と結果

#評価指標

#試験したアーキテクチャ

#ポストプロセッシングの設定

#結果

#ビジュアル比較

#結論

参照リンク

参照トピック

背景と文献レビュー

SignaTR6Kデータセット

アプローチと方法論

モデルアーキテクチャ

四クラス定式化

セマンティックセグメンテーションパス（SSP）

ファインフィーチャーパス（FFP）

ミックスフィーチャーモデル（MFM）

ポストプロセッシングとヒューリスティック法

損失関数

実験と結果

評価指標

試験したアーキテクチャ

ポストプロセッシングの設定

結果

ビジュアル比較

結論