中世ラテン語のデジタル化:手書き認識プロジェクト
このプロジェクトは、手書きのレコードカードから中世ラテン語の見出し語の認識を高めるんだ。
― 1 分で読む
目次
バイエルン科学人文学アカデミーが中世ラテン語辞典をデジタル化してるんだ。この辞典はリソースが少ない言語を参照していて、手書きの単語を含むレコードカードがたくさんあるんだよ。デジタル化の大きな部分は、これらのカードに書かれた手書きの単語を認識することなんだ。そこで、中世ラテン語辞典専用に設計された完全なシステムを開発して、レコードカードからレマ(手書きの単語)を見つけて抽出して転写することにフォーカスしたんだ。
手書き認識の課題
手書きのテキストを認識するのは、印刷されたテキストと比べてユニークな課題があるんだ。手書きスタイルのバリエーション、画像のノイズ、そして中世ラテン語のリソースが限られていることが、認識精度を改善するのを難しくしている。そこで、私たちはレコードカードからレマを特定して読むための信頼性の高いシステムを作ることにしたんだ。
プロジェクトの概要
私たちのプロジェクトは、いくつかの重要な部分から成り立ってるよ:
データ準備:約20万枚のスキャンしたレコードカードを集めて、それに対応するレマを注釈したよ。レマは通常、各カードの左上隅にある。
検出システムの開発:レコードカード上のレマの位置を見つけるためのモデルを構築した。レマには正確な位置がラベル付けされていないから、これを物体検出の問題としてアプローチしたんだ。
手書きテキスト認識(HTR):レマの位置を特定した後、さまざまなモデルを使ってテキストを認識したよ。どのモデルの組み合わせがベストか実験したんだ。
データ拡張:モデルのパフォーマンスを向上させるために、意味を変えずにトレーニング例のバリエーションを増やす技術を使ったよ。
評価:システムの精度を測るために、レマを実際のラベルと比べてどれだけうまく読めるかチェックしたんだ。
データ収集と注釈
最初のステップはデータを集めて注釈を付けることだった。レコードカードをスキャンして、書かれているレマを記録したよ。カードには約130万個の参照ポイントがあり、各カードはレマの最初の文字に基づいてアルファベット順に並べられてる。データセットを強化するために、各レマがトレーニングデータに正確に表現されるようにしたんだ。
検出システム
レコードカード上のレマの位置を特定するために、正確なラベルがないという課題に直面した。だから、このタスクをビジュアルグラウンディングの問題に変えたんだ。モデルに画像とレマの説明を提供して、単語の位置を返すことを期待したよ。
このタスクには物体検出モデルを使ったんだけど、一部のカードにはテキストが複数あったり、全くなかったりするから、各レマのための最適なバウンディングボックスを決定するルールを作った。選ばれたボックスは最大で、レマが通常現れる左上角に位置するようにしたんだ。
手書きテキスト認識(HTR)
次のフェーズは、レコードカードから抽出したテキストを認識することだった。この目的のために、手書きのレマの画像を処理できる高度なモデルを使ったよ。異なるアーキテクチャを試して、トランスフォーマーモデルが良い結果を出すことが分かったんだ。
モデルをトレーニングするために、データをトレーニングセットとテストセットに分けたよ。標準的なトレーニング技術を使って、その後データ拡張を適用してモデルのパフォーマンスをさらに向上させた。目標は、モデルが手書きや画像の質のバリエーションにうまく対応できるようにすることだったんだ。
データ拡張技術
データ拡張はディープラーニングで重要な役割を果たすんだ。元の画像に様々な修正を加えることで、トレーニングデータセットの多様性を向上させるんだ。私たちが実装した技術のいくつかは:
ランダム回転:特定の範囲内で画像を回転させて、異なる角度をシミュレートしたよ。
ぼかしと鮮明度の調整:画像の鮮明さやぼやけ具合を変えて、実際のバリエーションをよりよく表現した。
色の修正:明るさ、コントラスト、彩度、色相をランダムに調整した。
オリジナルと拡張データの両方でモデルをトレーニングすることで、レマが異なる形で現れる理解を深めたんだ。
トレーニングと評価
モデルのパフォーマンスを評価するために、キャラクターエラーレート(CER)というメトリクスを使用したんだ。このメトリクスは、モデルが手書きのテキストをどれだけ正確に読めるか理解するのに役立つ。CERの値が低いほどパフォーマンスが良いってことだね。
実験では、異なるモデルのアーキテクチャや設定を比較した。特定のモデルの組み合わせを使うことで、最良の結果が得られ、CERが0.015で、他の商業システムよりも精度が高かったんだ。
商業システムとの比較
モデルのパフォーマンスを検証するために、Google Cloud Vision(GCV)などの既存の商業システムと比較した。GCVが予測した追加の文字に対処するために調整を行った後でも、私たちのモデルはレマの読み取り精度で優れていたよ。
データからの洞察
レマを最初の文字や長さに基づいて分布を分析した。ほとんどのレマは「s」で始まり、少しの部分が他の文字で始まっていた。レマの平均長さは1から19文字で、多くは比較的短いものだったよ。
私たちの分析は、一部のレマがデータセットで過小表現されていることを明らかにした。これがモデルの認識能力に影響を与えるかもしれないから、これらの洞察を文書化して、将来のモデルの改善に役立てるつもりなんだ。
今後の作業
これからの研究のためにはいくつかのアプローチがあるよ。まず、レコードカード上の情報のフルレンジを利用するために追加の抽出技術を探ることを勧めるよ。現在の方法は主にレマに焦点を当てていて、これを超えることがさらなる洞察を得る手助けになるかもしれない。
次に、他の手書き認識タスクで成功を収めているTrOCRアーキテクチャを実験してみることを提案するよ。私たちの実験でSwinエンコーダーがうまくいったから、異なるエンコーダーアーキテクチャの効果的な組み合わせが見つかるかもしれない。
最後に、モデルのトレーニングデータセットを強化するために合成データを生成する可能性を調査する予定だよ。このアプローチは、過小表現されたレマに関連する問題を克服し、全体的なパフォーマンスを改善するのに役立つかもしれない。
結論
私たちのプロジェクトは、中世ラテン語のレマに対する手書きテキスト認識の新しいアプローチを示しているよ。特化した検出と認識のパイプラインを開発することで、リソースが少ない言語がもたらすユニークな課題に対処しつつ、競争力のある結果を達成したんだ。私たちの発見は、認識精度を向上させるためにデータ拡張と高度なモデル化技術を使用する効果を強調している。私たちの作業は、手書き認識の分野や歴史的テキストのデジタル化における今後の研究の基盤を築いていると信じているよ。私たちの方法をさらに洗練させることで、言語遺産を認識し、保存するさらなる進展に期待してるんだ。
タイトル: A tailored Handwritten-Text-Recognition System for Medieval Latin
概要: The Bavarian Academy of Sciences and Humanities aims to digitize its Medieval Latin Dictionary. This dictionary entails record cards referring to lemmas in medieval Latin, a low-resource language. A crucial step of the digitization process is the Handwritten Text Recognition (HTR) of the handwritten lemmas found on these record cards. In our work, we introduce an end-to-end pipeline, tailored to the medieval Latin dictionary, for locating, extracting, and transcribing the lemmas. We employ two state-of-the-art (SOTA) image segmentation models to prepare the initial data set for the HTR task. Furthermore, we experiment with different transformer-based models and conduct a set of experiments to explore the capabilities of different combinations of vision encoders with a GPT-2 decoder. Additionally, we also apply extensive data augmentation resulting in a highly competitive model. The best-performing setup achieved a Character Error Rate (CER) of 0.015, which is even superior to the commercial Google Cloud Vision model, and shows more stable performance.
著者: Philipp Koch, Gilary Vera Nuñez, Esteban Garces Arias, Christian Heumann, Matthias Schöffel, Alexander Häberlin, Matthias Aßenmacher
最終更新: 2023-08-18 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2308.09368
ソースPDF: https://arxiv.org/pdf/2308.09368
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.ancientnlp.com/alp2023/
- https://huggingface.co/misoda
- https://github.com/slds-lmu/mlw-htr
- https://pypi.org/project/mlw-lectiomat/
- https://cloud.google.com/vision?hl=de
- https://cloud.google.com/vision/docs/handwriting
- https://www.aclweb.org/portal/content/acl-code-ethics
- https://huggingface.co/OFA-Sys/ofa-base-refcoco-fairseq-version