Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語

ブラジルポルトガル語の言語モデルを評価する

この研究は、ブラジルポルトガル語のタスクにおける言語モデルのパフォーマンスを評価してるよ。

― 1 分で読む


言語モデルとブラジルポルト言語モデルとブラジルポルトガル語パフォーマンスを調べる。ポルトガル語の言語タスクにおけるモデルの
目次

最近の言語技術の努力は、テキストを理解し生成できる高度な言語モデルを構築することに焦点を当ててるんだ。BERTみたいなモデルは、深層学習技術を使って言語を処理・分析してるんだけど、これらのモデルはしばしば説明が難しい方法で動くから、彼らがどのように結論や予測に至るのかがわかりにくいんだ。この透明性の欠如は問題になりうるよ、特にこれらのモデルを特定のタスクに適用したり、異なるモデルを比較しようとするときにね。

この文脈で、ブラジルポルトガル語における言語モデルのパフォーマンスを調べてみたよ。文法や多語表現(MWE)など、言語のさまざまな側面を扱う能力に焦点を当てたんだ。多語表現は、通常の構成ルールに従わないフレーズで、個々の単語を見ただけじゃ意味が簡単に推測できないんだ。例えば、「pão duro」(ケチな人を意味する)は良い例で、その意味は「pão」(パン)や「duro」(硬い)とは直接関係ないんだ。

ブラジルポルトガル語を扱う言語モデルの能力を評価するために、テスト用の特別なデータセットを作成したよ。このデータセットは、MWE用と文法構造用の2つの主要セクションに分かれてるんだ。文法セクションには、動詞の一致、主語の一致、接続詞などの側面に注目した6種類のテストが含まれてる。

データセットの作成

各タスクのために、単一の欠落単語を含む一連の文をまとめたんだ。文脈も提供して選択肢を絞り込めるようにしてるよ。MWE部分のテストでは、33のイディオムを選び、それぞれの表現のために5つの文脈文を作成したんだ。これでテスト用の文は合計165文になったよ。モデルが関連する文脈を与えられたときに、欠落単語を正しく特定できるかを見るのが目的だったんだ。

文法テストでは、特定の文構造を見て、さまざまな文法ルールをテストするように設計された文を選んだよ。主語を持たない動詞(無人称動詞)や名詞と形容詞が性と数で一致しなければならない方法みたいな一般的な構造を含めたんだ。テストは、モデルが提供された文脈に基づいて欠落単語を埋めなければならないように構成されてる。

モデルの評価

ブラジルポルトガル語に特化して訓練された2つのBERTのバージョンを含む、いくつかの有名なモデルをテストしたよ。これらのモデルがMWEと文法テストの両方で、欠落単語をどれだけうまく予測できるかを見たかったんだ。

MWEテストでは、大きなモデルが小さいバージョンよりも良い結果を出したけど、どちらも全体のパフォーマンスに比べて多語表現を正確に予測するのは苦労してた。大きなモデルの最良の予測は、トップの選択肢だけで考えると約52%の正確性しかなかったけど、トップ10の推測を考慮するとその正確性は約66%に上がったよ。

文法テストは様々な結果が出た。接続詞を使うような合意が不要なタスクは高い正確性を示したけど、動詞や名詞の合意が必要なタスクはあまり良い結果を出さなかったよ。例えば、無人称動詞のテストではほぼ完璧なパフォーマンスを示した一方で、名詞と形容詞の性と数の一致が必要なタスクでは苦労してた。

発見と洞察

評価からわかったのは、モデルは多くの分野で一定の能力を示したけど、特に言語構造や合意を理解する必要があるタスクに関して目立った弱点があったことだね。例えば、ある個人代名詞を扱う時や、より複雑な文法構造が関与する時に、モデルはあまり良いパフォーマンスを出せなかったよ。

二つのモデルのパフォーマンスギャップは、大きくて特化したモデルの方がより良く機能する傾向があるけど、小さいモデルにも優れた点はあったよ。結果からは、モデルが間違った答えに対して高い自信を持つ傾向があることもわかって、訓練と評価のプロセスをさらに改善する必要があることを示してるね。

今後の展望

今後は、言語モデルのテストへのアプローチをさらに洗練させていくつもりだよ。文脈での動詞の使い方や日常会話で見られる一般的なフレーズなど、言語の他の側面を含めてテストを拡大していくつもりだ。トレーニングデータの偏りがモデルのパフォーマンスにどんな影響を与えるかも探りたいと思ってる。

最終的には、言語モデルの評価をより明確にし、ブラジルポルトガル語を正確に処理・生成する能力を向上させることが目標だよ。包括的なデータセットを開発し、標準化された評価手順に従うことで、様々なアプリケーションにおける言語技術の理解と利用を進めることを希望してるんだ。

オリジナルソース

タイトル: Assessing Linguistic Generalisation in Language Models: A Dataset for Brazilian Portuguese

概要: Much recent effort has been devoted to creating large-scale language models. Nowadays, the most prominent approaches are based on deep neural networks, such as BERT. However, they lack transparency and interpretability, and are often seen as black boxes. This affects not only their applicability in downstream tasks but also the comparability of different architectures or even of the same model trained using different corpora or hyperparameters. In this paper, we propose a set of intrinsic evaluation tasks that inspect the linguistic information encoded in models developed for Brazilian Portuguese. These tasks are designed to evaluate how different language models generalise information related to grammatical structures and multiword expressions (MWEs), thus allowing for an assessment of whether the model has learned different linguistic phenomena. The dataset that was developed for these tasks is composed of a series of sentences with a single masked word and a cue phrase that helps in narrowing down the context. This dataset is divided into MWEs and grammatical structures, and the latter is subdivided into 6 tasks: impersonal verbs, subject agreement, verb agreement, nominal agreement, passive and connectors. The subset for MWEs was used to test BERTimbau Large, BERTimbau Base and mBERT. For the grammatical structures, we used only BERTimbau Large, because it yielded the best results in the MWE task.

著者: Rodrigo Wilkens, Leonardo Zilio, Aline Villavicencio

最終更新: 2023-06-07 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2305.14070

ソースPDF: https://arxiv.org/pdf/2305.14070

ライセンス: https://creativecommons.org/licenses/by-sa/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

類似の記事