Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語

ハンガリーにおける文学翻訳の変化する風景

1989年のハンガリーの政治変動後の文学翻訳者の状況を分析する。

― 1 分で読む


1989年以降のハンガリー1989年以降のハンガリーにおける翻訳政治変革後の文学翻訳者の地位を調査する。
目次

この研究は、1989年頃のハンガリーの政治的変化の中で、人々が文学翻訳をどう見ていたかを探るものだよ。この時期の前は、翻訳者たちは州のサポートのおかげで強い地位を持っていたんだけど、民主主義への移行の後は、彼らの地位や資金がかなり減っちゃった。今回の研究は、政治変化の後の20年間の文学翻訳者に対する社会的認識を探るために、いろんな手法を組み合わせてるんだ。

研究の問題

ハンガリーの社会主義時代から民主的システムへの移行は、文化や文学にとって重要だったんだ。長い間、翻訳者たちはしっかり支援され、認知されていたけれど、1989年以降、それが変わって資金や認識が減少しちゃった。この変化を人々がどう受け取ったかを理解することは大切なんだ。従来の研究方法では、必要な範囲や客観性が不足しがちだから、今回の研究では、現代のデータ駆動型の技術を使って、定性的と定量的なアプローチを融合させて、文学翻訳者の状況についての明確な洞察を提供しようとしてるんだ。

アプローチ

この研究では、文学雑誌から情報をラベリングするコーディングシステムを使ってるよ。主な焦点は、アルフォルドとナギヴィラーグの2つの雑誌にあるんだ。アルフォルドの雑誌は1980年から1999年の間をカバーしていて、コーディングの訓練場として使われるよ。このコーディングシステムを同じ期間のナギヴィラーグに適用するのが目標なんだ。

データ収集

データは、さっきの2つの雑誌のスキャンページから来てるよ。分析は翻訳について話してる段落に基づいてる。各段落は、内容ラベルとコンテキストラベルの2種類のラベルを使って分類されるんだ。内容ラベルは段落のテーマやトピックを特定するのに役立つし、コンテキストラベルは翻訳の言及を促す状況を説明してるよ。

手動アノテーション

最初にアルフォルドからデータを集めて、そこで段落に関連するラベルを手動で付けたよ。このプロセスには時間がかかって、正確性を確保するためにデータを何度も見直したんだ。文学翻訳のニュアンスを捉えるためのコーディングシステムが開発されたんだ。

データの前処理

スキャンした雑誌ページは、読みやすいテキストに変換する必要があったんだ。これは光学文字認識(OCR)技術を使って行われたよ。段落の不正な区切りやページの境界の問題を解決して、データが使えるようにしたんだ。

データ統計

分析では大規模なテキストが収集され、数百万語や数十万段落が両方の雑誌から抽出されたよ。でも、その中の多くの段落は翻訳に関係なかったため、より焦点を絞ったデータセットになったんだ。

分類技術

この研究では、特にBERTというモデルを使って、先進的な機械学習技術を採用してデータを分類したよ。これらのモデルは、手動でラベル付けされたデータセットでトレーニングされて、文学翻訳についての議論の複雑さを理解するために使われてるんだ。

モデルのトレーニング

モデルが不均衡なデータセットを扱えるように、いろんな戦略を使ったよ。技術にはモデルのパラメータの調整、何回もトレーニングを行うこと、精度を向上させるための検証チェックが含まれるんだ。

評価

トレーニングの後、モデルのパフォーマンスは手動でラベル付けされたデータとの比較で評価されたよ。これには、モデルが新しいデータセットにコーディングシステムをどれだけうまく適用できるかを評価することが含まれてるんだ。

結果

結果は、モデルが翻訳に関連する内容をうまく分類できて、自信を持ってることを示しているよ。でも、コンテキストラベルには課題があって、さらに改良が必要だってこともわかったんだ。

重要性のサンプリング

データセットの不均衡な性質から、サンプリング技術を使って過小評価されているカテゴリに注意を向けたよ。この方法は、雑誌記事の翻訳の状況をより明確にすることを目的としているんだ。

トレンドの発見

最終的な目標は、翻訳が時間を通じてどのように認識されていったかのトレンドを見つけることだったよ。データ分析は、特定のテーマがどのように出現し、変わっていったかに焦点を当ててるんだ。

ラベル関係ネットワーク

異なるラベル間のつながりを視覚化するために、関係ネットワークを作成したよ。これらのネットワークは、文学翻訳に関するさまざまなテーマがどのように相互作用しているかを示すのに役立つんだ。重要な変化やパターンを強調するようにネットワークが作られていて、複雑な関係を分析するのが容易になるんだ。

結論

この研究は、伝統的な文学分析と現代の機械学習技術を組み合わせて、ハンガリーの歴史の重要な時期に文学翻訳がどのように認識されていたかを探ったんだ。2つの影響力のある雑誌からの膨大なデータを分析することで、文学翻訳者の変わりゆく地位に光を当てて、彼らの仕事の文化的・政治的な文脈を理解する手助けをしてるよ。結果は、ハンガリー文学の変化する状況の中で、文学翻訳に対する継続的な支援と認知の重要性を強調しているんだ。今後の研究では、方法の改良やデータセットの拡張に焦点を当てて、より包括的な分析を目指す予定だよ。

オリジナルソース

タイトル: Training BERT Models to Carry Over a Coding System Developed on One Corpus to Another

概要: This paper describes how we train BERT models to carry over a coding system developed on the paragraphs of a Hungarian literary journal to another. The aim of the coding system is to track trends in the perception of literary translation around the political transformation in 1989 in Hungary. To evaluate not only task performance but also the consistence of the annotation, moreover, to get better predictions from an ensemble, we use 10-fold crossvalidation. Extensive hyperparameter tuning is used to obtain the best possible results and fair comparisons. To handle label imbalance, we use loss functions and metrics robust to it. Evaluation of the effect of domain shift is carried out by sampling a test set from the target domain. We establish the sample size by estimating the bootstrapped confidence interval via simulations. This way, we show that our models can carry over one annotation system to the target domain. Comparisons are drawn to provide insights such as learning multilabel correlations and confidence penalty improve resistance to domain shift, and domain adaptation on OCR-ed text on another domain improves performance almost to the same extent as that on the corpus under study. See our code at https://codeberg.org/zsamboki/bert-annotator-ensemble.

著者: Dalma Galambos, Pál Zsámboki

最終更新: 2024-03-26 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2308.03742

ソースPDF: https://arxiv.org/pdf/2308.03742

ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

類似の記事