ヘルクラネウムパピルスの復活
新しい技術が、古代の文書を傷めずに読むことを目指している。
― 1 分で読む
目次
79年、ヴェスヴィオ山が噴火して、ポンペイとヘルクラネウムのローマの町が厚い灰と debris に埋もれた。この悲劇的な出来事の結果、多くの古代のアーティファクトが保存されたけど、ダメージも受けた。大きな発見の一つは、ヘルクラネウムの別荘で見つかったパピルスの巻物のコレクションだった。とても壊れやすい状態だけど、古代からの唯一の図書館で、内容の復元や理解への興味が続いてるんだ。
ヘルクラネウムのパピルス
ヘルクラネウムの巻物は900を超えていて、その多くは焼かれてもろくなってる。火山の噴火の間、強烈な熱と酸素の欠如がパピルスを炭化させて、壊れやすい残骸に変わったんだ。これらの巻物を物理的に広げようとする従来の方法は、さらに破壊を招くことが多かった。そのせいで知識の空白やテキストの欠損が生まれてしまった。
先進的な画像技術
最近、新しい画像技術が現れて、ヘルクラネウムの巻物を非破壊的に読む可能性のある解決策になってきてる。X線マイクロコンピュータトモグラフィ(マイクロCT)などの技術を使って、巻物の内部構造を詳細に捉えることができるんだけど、いくつかの課題が進行を阻んでる。
巻物に使われているインクはほぼ純粋な炭素で、X線画像で見ると炭素ベースのパピルスと区別が難しい。そのため、従来の方法だと隠れたテキストが含まれているのに、一見空白に見える画像が多いんだ。
巻物を読むっていう課題
ヘルクラネウムの巻物からテキストを回復するにはいくつか大きな課題がある。まず、インクがX線画像に対してパピルスとのコントラストが弱いから、見つけるのが難しい。次に、巻物の構造が複雑で、圧縮された複数の層が巻かれて、しわくちゃになってる。
これらの要因が、画像をセグメント化してインクがどこにあるかを特定する際の複雑さを生んでる。
新しいアプローチ:EduceLab-Scrolls
EduceLab-Scrollsは、これらの課題を克服するための新しいデータセットを紹介してる。このデータセットは、高解像度のマイクロCT画像と先進的な機械学習技術を組み合わせてる。ヘルクラネウムのパピルスの隠されたテキストを明らかにするために20年以上の研究が詰まってる。
このデータセットには、完全な巻物と小さな断片が含まれていて、研究者がテキストが何を言っているかのより完全なイメージを作成できるようになってる。さらに、異なる画像モダリティ間のアライメントも特徴としてあって、3D X線CTデータとインクの位置を示す2D表面画像がつながってる。
データセットの仕組み
EduceLab-Scrollsには、インクが見つかる可能性のある場所に対応するラベルも含まれてる。これらのラベルをX線CT画像と整列させることで、機械学習モデルが困難な画像条件でもインクの存在を検出するように訓練できる。
このアプローチは、画像のパターンに基づいてインクの場所を特定する方法を学ぶことができる。
モデルの訓練
機械学習モデルを訓練するために、インクの位置が把握された巻物の断片のラベル付き画像を使用する。モデルはインクの存在を示すパターンを特定することに焦点を当ててる。言語や文字、書き方に関する事前の知識には頼らず、画像のピクセル内の特定の特徴を探るんだ。
モデルが訓練されると、その学習を巻物の小さい部分に適用できて、テキストがまだ解読されていない場所でも使える。
初期の発見
このモデルを巻物の断片に適用した初期の結果は良好だった。モデルは、ほぼ2000年間見られなかったテキストのラインを特定して明らかにした。研究者たちは、モデルの予測を巻物上のインクの既知の位置と比較して、これらの発見を検証してる。
評価指標
インク検出モデルのパフォーマンスを評価するために、研究者たちは視覚的および定量的な指標を使ってる。これには、真のテキストのどれだけ回復できたかや、モデルが生成した誤った読み取りの数をチェックすることが含まれる。真のインクを検出しつつ、誤解を招く出力を避けるバランスを慎重に取ることが求められてる。
視覚的な確認は、モデルが生成するものが正確で既知の事実に合致しているかを確保するのに役立つ。このフィードバックループが、モデルの予測を継続的に改善することを可能にする。
現実の応用
EduceLab-Scrollsの成功は、ヘルクラネウムのテキストを読む可能性を示すだけでなく、さらに広い応用の可能性を提示してる。このプロジェクトで発展した技術は、微細な信号が見逃されがちな医療画像など、他の分野にも適応できるかもしれない。
医療専門家にとって、スキャンで隠れた特徴を検出する能力は、より良い診断や治療計画につながるかもしれない。
共同作業
EduceLab-Scrollsの作成は、様々な分野の専門家の幅広い協力の結果だ。歴史家、技術者、学者たちが、この研究の進展に重要な役割を果たしてきた。彼らの専門知識の結集が、巻物についてのより包括的な理解とテキスト回復の新しい方法論につながった。
将来の方向性
現状の進展は励みになるけど、まだ多くの課題が残ってる。画像技術が進化し、より多くのデータが入手可能になるにつれて、ヘルクラネウムの巻物からのテキスト回復の正確性は向上することが期待されてる。
さらに、様々な画像モダリティや機械学習メソッドを組み合わせる潜在能力が、巻物だけでなく他の古代のアーティファクトについても新しい発見につながる道を開くんだ。
結論
EduceLab-Scrollsは、ヘルクラネウムの失われたテキストを回復するための重要な進展を示してる。革新的な画像技術と機械学習を組み合わせることで、研究者たちはこれらの古代の巻物をさらに傷めることなく読むための大きな一歩を踏み出したんだ。
このプロジェクトは、協力と技術の進歩によって可能になることの証だし、古代の文学研究における新しい章を示してる。方法がどんどん洗練され、データが集まることで、ヘルクラネウムのパピルスの謎が少しずつ明らかになって、古代の世界の考えやアイデアへの新しい洞察をもたらすだろう。
タイトル: EduceLab-Scrolls: Verifiable Recovery of Text from Herculaneum Papyri using X-ray CT
概要: We present a complete software pipeline for revealing the hidden texts of the Herculaneum papyri using X-ray CT images. This enhanced virtual unwrapping pipeline combines machine learning with a novel geometric framework linking 3D and 2D images. We also present EduceLab-Scrolls, a comprehensive open dataset representing two decades of research effort on this problem. EduceLab-Scrolls contains a set of volumetric X-ray CT images of both small fragments and intact, rolled scrolls. The dataset also contains 2D image labels that are used in the supervised training of an ink detection model. Labeling is enabled by aligning spectral photography of scroll fragments with X-ray CT images of the same fragments, thus creating a machine-learnable mapping between image spaces and modalities. This alignment permits supervised learning for the detection of "invisible" carbon ink in X-ray CT, a task that is "impossible" even for human expert labelers. To our knowledge, this is the first aligned dataset of its kind and is the largest dataset ever released in the heritage domain. Our method is capable of revealing accurate lines of text on scroll fragments with known ground truth. Revealed text is verified using visual confirmation, quantitative image metrics, and scholarly review. EduceLab-Scrolls has also enabled the discovery, for the first time, of hidden texts from the Herculaneum papyri, which we present here. We anticipate that the EduceLab-Scrolls dataset will generate more textual discovery as research continues.
著者: Stephen Parsons, C. Seth Parker, Christy Chapman, Mami Hayashida, W. Brent Seales
最終更新: 2024-05-20 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2304.02084
ソースPDF: https://arxiv.org/pdf/2304.02084
ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。