Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語# 人工知能# コンピュータと社会# 情報検索# 機械学習# 社会と情報ネットワーク

先住民族の先祖の遺骸の還付活動

研究は機械学習と専門知識を組み合わせて、帰国をサポートしてるんだ。

― 1 分で読む


先住民の遺骸:行動の呼びか先住民の遺骸:行動の呼びか技術と伝統を融合して先祖帰り。
目次

先住民の祖先の遺体の返還は、オーストラリアやその周辺のファーストネイションの人々にとって重要なテーマだよ。多くの遺体が現在、西洋の科学機関に保管されていて、コミュニティに戻して再埋葬することが大事なんだ。このプロセスは、1790年から1970年までの間に遺体がどのようにされて、寄付されたのか、売られたのか、機関間で交換されたのかを追跡するための文書を見つける必要があるため、複雑になってる。

歴史的文書を探す課題

いくつかの団体や研究者がこの課題に取り組んでるよ。彼らはテキストマイニング技術を使って、さまざまなテキストの中から重要な情報を見つけることに集中してる。データサイエンティストと社会科学者たちは、この情報を効率的に分析するための自動化ソリューションを作ることを目指してるんだ。彼らは機械学習を使って、関連する文書を見つけたり分析したりする方法を開発してる。

この取り組みの主なタスクの一つは、関連するテキストを検出する精度を向上させることなんだ。伝統的な分類モデルは、小さな数のラベル付き文書で訓練されると苦労することが多くて、これはモデルに何を探すべきかを教えるのに必要なんだ。こうした問題に取り組むために、研究者たちはインフォードニューラルネットワーク(INN)という新しいモデルを探求してる。このモデルは、専門家の洞察を使って文書の内容をより正確に説明するんだ。

専門知識の重要性

INNモデルは、少数のラベル付き文書に頼りながら、出所研究の専門家の知識を取り入れてる。これらの専門家は、関連文書に現れる可能性のあるキーワードを提供して、モデルが正しい情報を検出する能力を高めてるんだ。結果として、このインフォードアプローチを使うことで、先住民の遺体の取引や取り扱いに関連する文書の特定が大幅に改善されたことが示されてる。

デジタルライブラリとオンラインリソース

近年、いろんなデジタルライブラリの取り組みが歴史的文書を探すのを簡単にしてきたよ。多くの本や科学雑誌、新聞記事が今ではデジタル形式でオンラインで利用できるようになった。でも、祖先の遺体の盗難や使用に関する関連情報を見つけるのは難しい。研究者たちは検索エンジンに頼らなきゃいけないんだけど、これがバイアスのかかった結果を生むこともあるんだ。これらの結果は、インデックスの仕方によって必要な文書すべてを反映しないかもしれない。

ファーストネイションのコミュニティと一緒に働いてる研究者たちは、祖先の遺体のアイデンティティと場所を確認して、適切に再埋葬するための手助けをする課題に直面してる。このプロセスは、さまざまなコレクターや機関を通じて遺体の動きを追跡するために、広範な努力を必要とすることが多いんだ。残念ながら、現在の博物館カタログは、遺体の最終的な場所しか示さない限られたデータを提供することが多くて、アイデンティティの誤認につながることがある。

歴史的情報源の多様性

貴重な情報を提供できる多くの歴史的情報源が、さまざまなオンラインプラットフォームに散らばってるんだ。これには、博物館への寄付や販売を記録した新聞記事、オークションの広告、個人コレクションの販売に関する報告が含まれることもある。これらの情報源が役立つ可能性があるにもかかわらず、見つけて調査するのは大変な作業なんだ。デジタルライブラリプロジェクトは、これらの文書を集めて整理しようとしてきたけど、研究者にとってはこれらのコレクションをナビゲートするのは難しいままなんだ。

機械学習の役割

機械学習は、関連文書を自動的に特定するための有望な解決策を提供するよ。このアプローチは、文書の歴史的背景が現代のテキストとは異なることが多く、特に役立つんだ。多くの歴史的文書はスキャンされて光学文字認識(OCR)を通じて利用できるようになってるけど、このプロセスでエラーが生じることがあって、テキストを正確に再現するのが難しい場合がある。

最近の機械学習アプリケーションで使われている既存の言語モデルは、歴史的文書のニュアンスやコンテキストを捉えきれないことが多いんだ。さらに、これらのモデルは通常、効果的な訓練のためにかなりの量のラベル付きデータを必要とするけど、これは人文科学や社会科学ではしばしば入手可能ではないんだ。

分類モデルの開発

これらの問題に取り組むために、研究者たちはINNアプローチを活用した教師あり学習モデルの設計に取り組んでる。このモデルは専門家の知識と機械学習を統合して、関連文書の検出を強化するんだ。専門家が提供する知識には、キーワードやこれらのキーワードが現れる可能性のある文脈が含まれてる。この統合は重要で、モデルのパフォーマンスを向上させる一方で、訓練に必要なラベル付き文書の数を最小限に抑えることができるんだ。

キーワードの重要性

選ばれたキーワードは、モデルが先住民の遺体に関連する特定のトピックを学ぶのに役立つよ。これらのキーワードが文書内でどう相互作用するかを理解することで、関連情報を特定するための必要な文脈が提供されるんだ。研究者たちは、こうした相互作用を分析するのに役立ついくつかの中心性の指標を特定して、モデルの関連性をシグナルする能力をさらに洗練させてる。

モデルの性能評価

研究者たちは、モデルの精度と効果を評価するために実験を行ってるよ。モデルが関連文書をどれだけ上手く特定できるかを評価するために、いくつかの指標が使われてる。これには、先住民の人間の遺体に関連するデータセットと、標準的なニュースコーパスからのデータセットの2つが使用されてるんだ。

これらの実験を通じて、INNモデルは従来の分類モデルを上回る能力を示したよ。専門家の知識とデータ駆動の方法を組み合わせることで、このモデルは小さなデータセットでも効果的に機能し続けるんだ。結果として、精度、適合率、再現率といったパフォーマンスメトリックにおいて顕著な改善が示唆されたんだ。

訓練データの大きさの影響

実験では、研究者たちは訓練データセットのサイズがモデルの性能にどのように影響するかも調査したよ。その結果、INNモデルは非常に小さな訓練サンプルでも合理的な精度を達成できることがわかったんだ。より多くの訓練データが利用可能になるにつれて、モデルの性能は一貫して向上し、専門家の入力とデータ駆動のアプローチを組み合わせる価値が際立ってるんだ。

今後の方向性

今後は、INNモデルをさらに洗練させて、知識グラフなどの追加の専門知識を統合することを探求する予定なんだ。これにより、文書特定に使われるキーワードの周囲のコンテキストをより深く理解できるように、モデルの能力が向上するかもしれないよ。

さらに、研究者たちはこの取り組みから得た洞察を、社会ネットワーク分析などの広範な分野に役立てることを目指してるんだ。キーワード同士のつながりの重要性を理解することは、先住民の人間の遺体に関する現在の焦点を超えて広範な影響を持つ可能性があるよ。

結論

先住民の祖先の遺体の返還を巡る努力は、研究におけるコラボレーションと革新の重要性を浮き彫りにしてるんだ。専門知識と機械学習を組み合わせることで、研究者たちは歴史的文書の特定と分析をより効果的に進める道を開いてる。この取り組みは、祖先の遺体の返還だけでなく、ファーストネイションの人々の歴史や遺産の理解にも貢献してる。今後の進展を通じて、返還の努力や文化遺産の保存において、より良い成果が期待されるんだ。

オリジナルソース

タイトル: Informed Machine Learning, Centrality, CNN, Relevant Document Detection, Repatriation of Indigenous Human Remains

概要: Among the pressing issues facing Australian and other First Nations peoples is the repatriation of the bodily remains of their ancestors, which are currently held in Western scientific institutions. The success of securing the return of these remains to their communities for reburial depends largely on locating information within scientific and other literature published between 1790 and 1970 documenting their theft, donation, sale, or exchange between institutions. This article reports on collaborative research by data scientists and social science researchers in the Research, Reconcile, Renew Network (RRR) to develop and apply text mining techniques to identify this vital information. We describe our work to date on developing a machine learning-based solution to automate the process of finding and semantically analysing relevant texts. Classification models, particularly deep learning-based models, are known to have low accuracy when trained with small amounts of labelled (i.e. relevant/non-relevant) documents. To improve the accuracy of our detection model, we explore the use of an Informed Neural Network (INN) model that describes documentary content using expert-informed contextual knowledge. Only a few labelled documents are used to provide specificity to the model, using conceptually related keywords identified by RRR experts in provenance research. The results confirm the value of using an INN network model for identifying relevant documents related to the investigation of the global commercial trade in Indigenous human remains. Empirical analysis suggests that this INN model can be generalized for use by other researchers in the social sciences and humanities who want to extract relevant information from large textual corpora.

著者: Md Abul Bashar, Richi Nayak, Gareth Knapman, Paul Turnbull, Cressida Fforde

最終更新: 2023-03-25 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2303.14475

ソースPDF: https://arxiv.org/pdf/2303.14475

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

類似の記事