ブルガリアの歴史的文書のOCRを改善する
このプロジェクトは、OCR技術を使ってブルガリアの歴史的文書のテキスト修正を強化するよ。
Angel Beshirov, Milena Dobreva, Dimitar Dimitrov, Momchil Hardalov, Ivan Koychev, Preslav Nakov
― 1 分で読む
目次
歴史的文書のデジタル化は、文化遺産を生き続けさせるために重要なんだ。これには、スキャンした画像を光学文字認識(OCR)を使ってテキストに変換することが大きな役割を果たす。この技術によって、テキストが検索可能になり、扱いやすくなるんだけど、いつも簡単なわけじゃない。標準的なOCRツールは、歴史的な書き方や複雑なレイアウトに苦労して、テキストに間違いが生じることが多い。だから、OCRで生成されたテキストを修正するための追加ステップが必要になることがよくあるんだ。
Post-OCR分析の必要性
多くの図書館や博物館が、紙の文書をデジタル形式に変換する努力をしていて、これによってアクセスしやすく、歴史を保存できるようになっている。ただ、古いスペリングルールで書かれた文書はOCRシステムを混乱させて、認識エラーが起きることがあるんだ。これらのエラーは、正確なテキストに依存するアプリケーション、たとえば固有表現認識やテキスト要約に影響を与えることがある。小さなエラーでも、大きな問題につながることがあって、研究によれば、間違いが少し増えるだけでもデータの信頼性が下がることが示されている。
現代のOCRシステムは、良質な文書の約99%の文字を読み取れるんだけど、ブルガリア語のように古いスペリングルールが現代の使い方と合わない場合、パフォーマンスが落ちることがある。OCRシステムが学ぶための十分なトレーニングデータがないことも、特にブルガリアの歴史的文書では難しさを増しているんだ。
ブルガリア歴史的スペリングに焦点を当てて
このプロジェクトでは、特に歴史的なブルガリアのスペリングに注目してる。OCRによって生成されたテキストの修正を評価するためのベンチマークデータセットを作った。このデータセットには、19世紀に使われていたドリノフ正字法で書かれた文書が含まれている。もっとデータを集めるために、現代のブルガリア語テキストを使って、ドリノフとイヴァンチェフ両方の正字法で合成サンプルを生成する方法を開発したんだ。
高度な言語モデルと特別なフレームワークを使って、OCR後のテキスト修正の精度を向上させるメカニズムを追加した。私たちの方法は、認識中の間違いを減らすことができて、文書の質を25%改善した。これは以前のモデルより大きな進歩だよ。
ベンチマークデータセットの作成
このベンチマークデータセットの作成は、私たちの仕事の重要な部分なんだ。ドリノフ正字法はあまり一般的に使われておらず、特にそれ用のデータセットは存在していなかった。国立図書館から古い新聞を集めて、文書に注釈をつけて、現代のOCR出力に合わせるようにした。
ブルガリア語はさまざまな言語改革を経てきたから、この正字法のバラエティが問題を引き起こしている。私たちのデータセットは、この特定の歴史的文脈におけるOCRシステムを評価するための標準化された方法を提供する助けになるんだ。
エラー修正のプロセス
データセットを確立した後、エラー修正プロセス自体に注目した。最初のステップは、OCRシステムによって単語が正しく認識されたかどうかを検出すること。単語が事前定義された辞書に見つかれば、それは正しいとみなす。見つからなければ、それはエラーとしてマークされる。この分類は、さまざまな言語でトレーニングされた複数のモデルを用いて行われる。
次のステップは、検出されたエラーを修正すること。これにはいろいろな方法を使った。簡単な方法は、辞書に現れる頻度に基づいて、検出されたエラーに似た単語を見つけることだ。もっと高度な方法では、キャラクターレベルのモデルを利用して、エラーの修正をより良くするための注意メカニズムを使った。
合成データの活用
モデルをさらに改善するために、合成データを生成した。このデータは、現代のブルガリアのスペリングを特定の変換ルールを使って歴史的なバージョンに変えることで作られた。その後、ノイズを追加して、OCRシステムが犯すかもしれない実際の間違いをシミュレーションした。これによって、さまざまな潜在的なエラーにさらされることで、モデルがより良く学べるんだ。
パフォーマンスの評価
私たちは、モデルのパフォーマンスを評価するための厳密な評価基準を確立した。エラー検出では、精度、再現率、F1スコアを見た。エラー修正では、オリジナルのOCR出力と修正されたバージョンを比較してテキストの質の改善を評価した。
実験では、私たちの最高のモデルがイヴァンチェフとドリノフの両方の正字法で高いスコアを達成したことがわかった。これは、合成データの導入でモデルが適応し、改善できる能力を示しているんだ。
エラーの種類と分析
改善があったにもかかわらず、いくつかのエラーが残っていることも観察した。特に、単語のセグメンテーションに関連するエラーがあった。これらは、OCRがどこで単語が終わり、どこで始まるかを誤認識することで発生する。私たちは、OCRエンジンが犯すさまざまなタイプのエラーを概説し、単語セグメンテーションエラーの修正に特化した研究の必要性について議論した。
結論と今後のステップ
私たちの研究では、ブルガリアの歴史的文書におけるOCR処理後のテキストエラーを修正する新しい方法を示した。このアプローチは、テキストの質の改善につながり、類似の特徴を持つ他のスラブ言語にも関連性があるんだ。
今後は、単語セグメンテーションエラーの課題に取り組む予定だ。この分野での能力を向上させることで、OCR出力の質をさらに高め、歴史的文書の理解をより効果的に進められることを期待しているよ。
要するに、私たちの研究は、より良いデジタル化の実践を通じて文化的歴史を保存することに貢献し、この分野での将来の研究に役立つ貴重なリソースを提供しているんだ。
タイトル: Post-OCR Text Correction for Bulgarian Historical Documents
概要: The digitization of historical documents is crucial for preserving the cultural heritage of the society. An important step in this process is converting scanned images to text using Optical Character Recognition (OCR), which can enable further search, information extraction, etc. Unfortunately, this is a hard problem as standard OCR tools are not tailored to deal with historical orthography as well as with challenging layouts. Thus, it is standard to apply an additional text correction step on the OCR output when dealing with such documents. In this work, we focus on Bulgarian, and we create the first benchmark dataset for evaluating the OCR text correction for historical Bulgarian documents written in the first standardized Bulgarian orthography: the Drinov orthography from the 19th century. We further develop a method for automatically generating synthetic data in this orthography, as well as in the subsequent Ivanchev orthography, by leveraging vast amounts of contemporary literature Bulgarian texts. We then use state-of-the-art LLMs and encoder-decoder framework which we augment with diagonal attention loss and copy and coverage mechanisms to improve the post-OCR text correction. The proposed method reduces the errors introduced during recognition and improves the quality of the documents by 25\%, which is an increase of 16\% compared to the state-of-the-art on the ICDAR 2019 Bulgarian dataset. We release our data and code at \url{https://github.com/angelbeshirov/post-ocr-text-correction}.}
著者: Angel Beshirov, Milena Dobreva, Dimitar Dimitrov, Momchil Hardalov, Ivan Koychev, Preslav Nakov
最終更新: 2024-08-31 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2409.00527
ソースPDF: https://arxiv.org/pdf/2409.00527
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。