物理的な記録の検索を改善する
新しい方法が物理的アーカイブ資料の検索を向上させる。
― 1 分で読む
今のデジタルコンテンツがたくさんあるけど、重要な記録はまだ紙やマイクロフィルムにしかないことが多いんだ。物理的な記録を整理して探し出すための伝統的な方法は、フォルダーやボックスに何が入ってるかの手動の説明を使ってる。誰かが何かを探そうとすると、必要なものを見つけるために多くの物理的なアイテムをひっくり返すことになる。この論文では、選択的デジタル化と近接ベースの索引作成を使って、これらの資料をインデックスする新しい方法について話してるんだ。
新しいアプローチ
従来の索引作成方法だけに頼らず、この新しいアプローチは物理記録の一部をデジタル化することを含んでる。いくつかのデジタル化された文書を見ることで、ユーザーが特定のコンテンツをもっと簡単に見つけられるシステムを作れる。記録のボックスでのテストでは、この方法が人をより効果的に検索できるのを助けることができるって分かったんだ。
記録間のリンク
ホモフィリーっていうアイデアがあって、似た特性を持つ人たちとつながるって意味なんだ。この概念はアーカイブのコンテンツにも当てはまる。アーカイビストが記録を整理する時、文書の元の順序を保つんだ。この元の順序を守ることで文脈が維持され、研究者が特定の情報を探す時に役立つんだ。アーカイビストが元の順序を尊重すると、その順序を理解してるユーザーも価値を見出す可能性が高い。
元の順序の重要性
アーカイビストが資料を整理する時、フォルダー、ボックス、シリーズに分けるんだ。この元の順序は、将来の研究者にとってのガイドとして機能するんだ。元の順序を保つことで、アーカイビストはあまり追加作業せずに研究のためにコレクションを開放しやすくなるんだ。これは、元の順序が記録を作成した人や組織にとって目的を果たしてたからなんだ。
つまり、いくつかの記録の内容が分かれば、関連する記録がどこにあるかを推測できるってこと。ただ、この主張は理にかなってるけど、その正確さを証明するのは別の仕事なんだ。この論文では、一つのケースでこのアイデアを支持する証拠を示してるけど、もっと探求が必要だよ。
デジタル記録の増加
この50年でデジタル記録が大幅に増えてきた。デジタル文書の数が増えるにつれて、アーカイブの保管場所がそれで埋まってきてるんだ。デジタル記録を検索するためのツールもたくさんあって、新しい管理方法も開発されてる。
でも、多くの既存のツールは物理的な記録も検索できるんだけど、コストや物流の制約のため、すべてをデジタル化するのは難しいんだ。たとえば、2003年の5ヶ月間に国立公文書館は1300万ページを処理したんだ。そのペースでは、収蔵されてるすべての紙の記録をデジタル化するのに何百年もかかるってわけ。
紙の記録の探し方
物理的な記録を見つけるための最初のステップは、どこを探すかを知ることだ。学術的な引用はこのプロセスで大きな役割を果たす。研究によると、多くの歴史家や人類学者は、出版された文献に見られる手がかりを追うことが多いみたい。研究者がアーカイブに行く前にアーカイビストに連絡するのは一般的だし、研究者はアーカイビストが作成したファインディングエイドを頼りにして、コレクションの内容やレイアウトを理解してるよ。
ファインディングエイドの問題は、アーカイビストが提供した情報だけに依存してることだ。でも、資料のデジタル化を制限する同じ制約が、説明の質にも影響するんだ。これが、コレクションの一部しかオンラインで包括的な説明を持たない状況を生む可能性がある。
主題-数値ファイル
アメリカでは、国務省が外交に関する記録を管理してるんだ。1963年から1973年の間、彼らは「主題-数値ファイル」システムを使ってた。このシステムでは、最初のレベルは主題のための3文字コードなんだ。次のレベルは国を指定し、3番目のレベルは特定の数値コードになってる。このシステムには数百万ページが含まれていて、すべて国立公文書館に保管されてる。
最近、ブラウン大学がブラジルの政治に関連する記録をデジタル化する大規模プロジェクトを始めたんだ。このプロジェクトの一環として、約14,000アイテムが国務省の主題-数値ファイルからデジタル化されることになった。これらの記録は52ボックスの一部を代表してて、オンラインで利用可能になってる。
BoxFinderシステム
デジタル化された記録から作成されたPDFファイルは検索可能で、テキスト検索ツールを使って簡単に見つけられるんだ。でも、未デジタル化のコンテンツに対しては、ユーザーはフォルダのタイトルに頼るしかないんだ。この状況では、フォルダラベルに基づいてボックスをリクエストする必要があり、これは遅くて面倒なプロセスになっちゃう。
BoxFinderシステムの目標は、どのボックスを調べるかを提案することで検索プロセスを速めることだ。ユーザーはクエリを入力できて、システムが関連するボックスを推奨してくれる。逆に、ユーザーが文書を調べてると、システムは似た記録が含まれてるかもしれないボックスを指摘するんだ。
ボックスのインデックスを構築するために、システムはいくつかのデジタル化された文書を使って、そのテキストから検索可能な用語を作成するんだ。各ボックス内のいくつかのページのテキストを分析することで、システムは似たコンテンツを見つけるのに役立つインデックスを作成する。
システムのテスト
テストフェーズでは、2種類の検索をシミュレートしたんだ。1つ目は、ブラウン大学が提供したメタデータの文書のタイトルに基づいてユーザーがクエリを入力する形式。システムの成功は、正しいボックスをどれだけ正確に特定できるかで測定された。
2つ目の検索タイプでは、システムが特定の文書のテキストを使って、それに関連するボックスを推測したんだ。研究者はこの方法を使ってシステムがどれだけ正確に正しいボックスを見つけられるかを計算した。
結果は、文書を探す時にBoxFinderシステムがランダムな推測よりもかなり優れていることを示した。精度は完璧ではなかったけど、システムは偶然よりも正しいボックスを特定する可能性が高いことを示したんだ。
ランダムな推測 vs システムのパフォーマンス
結果は、BoxFinderが特定のクエリを使ってボックスを約27.9%の精度で見つけられたことを示した。このパフォーマンスは、ランダムな推測の約2.9%の成功率から見ると顕著な改善だ。
27.9%は高くは見えないかもしれないけど、多くの物理的なアイテムを探すことの難しさを考えれば、意味のある結果なんだ。システムが正確なボックスを見つけられなかった場合でも、近くのオプションを提案して、ユーザーが成功する可能性を高めてくれることが多いんだ。
フォルダラベルを用いたインデックス作成
検索結果を改善するための別の方法は、文書が保管されてるフォルダラベルから用語を生成することだった。主題-数値コードを参照することで、システムはこれらのコードを分類ガイドに提供された説明的なタイトルに置き換えられるんだ。この変更により、ユーザーがクエリを入力した際の検索の効果が向上したんだ。
フォルダラベルには日付も含まれてて、コンテンツの時間的な文脈を提供することができる。この情報を含めることで、より強固なインデックス作成が可能になり、検索プロセスを助けてるんだ。
テスト結果
テスト結果は、フォルダラベルに基づいたタイトルを使うことでコンテンツの理解がより深まることを示した。たとえば、これらのタイトルを用いて検索した場合、システムの正しいボックスを見つける率はランダムな推測よりもまだ良かったんだ。
OCRテキスト全体を使った検索は、短いタイトルのメタデータを使った場合よりもパフォーマンスがさらに良かった。この改善は、長いクエリが検索により多くの文脈と詳細を提供することを示唆してる。
研究の今後の方向性
この結果は、デジタル化された資料と未デジタル化された資料の間に関係があることを支持してて、より効果的な検索プロセスを促進できることを表してる。さらなる探求のためのいくつかの道が見えてくる。一つのアイデアは、インデックス作成に適した文書の特定の部分に焦点を当てることだ。
文書のレイアウトからもっと詳細をキャッチする可能性もあるし、誰が文書を送ったり受け取ったりしたか、文書の日付も含められるんだ。文書の種類を認識することも、特定の形式に合わせたより良い検索につながるかもしれない。
さらに、複数の文書の内容を一つの表現にまとめるのではなく、システムは各文書の個別の詳細を保持できるんだ。こうアプローチすることで、各文書が決定に寄与することが可能になり、全体的により良い結果が得られるかもしれない。
アプローチの一般化
このインデックス作成の方法はボックスだけに限らず、フォルダーやシリーズ、コレクション、または全体のリポジトリにも機能するかもしれない。たとえば、一つのアーカイブが著名な人物からの手紙を持っているなら、他の関連する文書も含まれてるかもしれない。
資料をインデックス化する方法のバリエーションは、検索されるコレクションのスケールに応じて適応することになる。でも、次のステップは、トレーニングやテスト用に多様なコレクションを集めることなんだ。そうすることで、研究者はシステムをより良く調整して、異なるコンテキストでうまく働くようにできるんだ。
結論
この研究は、インデックス作成と近接のハイブリッドアプローチを使うことで、まだデジタル化されていない物理記録の検索を助けることができることを示してる。文脈を考慮に入れることで、この方法は伝統的な検索システムに理解の層を追加するんだ。
将来的には、文書のレイアウト、メタデータ、インデックス作成方法から得た洞察を組み合わせることで、さらに良い成果が得られるかもしれない。多様なコレクションを使ったさらなる実験に取り組むことが、研究者やアーカイブコンテンツにアクセスしたいユーザーをより効率的に助けるためのキーになるんだ。
タイトル: Known by the Company it Keeps: Proximity-Based Indexing for Physical Content in Archival Repositories
概要: Despite the plethora of born-digital content, vast troves of important content remain accessible only on physical media such as paper or microfilm. The traditional approach to indexing undigitized content is using manually created metadata that describes it at some level of aggregation (e.g., folder, box, or collection). Searchers led in this way to some subset of the content often must then manually examine substantial quantities of physical media to find what they are looking for. This paper proposes a complementary approach, in which selective digitization of a small portion of the content is used as a basis for proximity-based indexing as a way of bringing the user closer to the specific content for which they are looking. Experiments with 35 boxes of partially digitized US State Department records indicate that box-level indexes built in this way can provide a useful basis for search.
著者: Douglas W. Oard
最終更新: 2023-07-08 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2305.18683
ソースPDF: https://arxiv.org/pdf/2305.18683
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。