多言語モデルのフォーマルさ
5つの言語で、言語モデルがフォーマルさをどう扱うかについての研究。
― 1 分で読む
言語モデルは、人間の言語を理解して生成するためのツールだよ。最近、異なる言語で動作できるモデルへの関心が高まってる。こういう多言語モデルは、データが豊富な言語からデータが少ない言語へ知識を移すことができるんだ。でも、文化的要因、特に言語のフォーマリティについてのモデルの挙動にはまだ多くの未知数があるんだよね。
言語におけるフォーマリティの理解
フォーマリティは、書き物やスピーチがどれだけ丁寧かカジュアルかを指すんだ。フォーマリティのレベルによってメッセージの受け取り方が変わることもあるよ。たとえば、フォーマルな手紙は正しいタイトルや完全な文を使うけど、カジュアルなテキストはスラングや短縮形を使うかもね。異なる言語にはフォーマリティを表現する独自の方法があって、しばしば文化的な規範に影響されるんだ。
この記事では、アラビア語、ベンガル語、英語、フランス語、スペイン語の5つの言語におけるフォーマリティについて、2つの言語モデルの挙動を見ていくよ。
言語モデルの役割
言語モデルは膨大なテキストでトレーニングされてるんだ。このトレーニングによって、会話や文章の文脈に合った文を生成する方法を学ぶんだ。学ぶ過程で、トレーニングに使われたテキストの種類に基づいてバイアスを発展させることもあるから、フォーマルな言葉やカジュアルな言葉を不必要に好むことがあるかもしれない。
2つの言語モデルの分析
注目するのはXGLMとBLOOMという2つの言語モデル。これらのモデルは複数の言語でテキストを生成できるようにトレーニングされてるんだ。異なるフォーマリティレベルのプロンプトに対する反応を調べてみるよ。
分析の仕組み
これらのモデルを分析するために、プロンプトの種類に基づいて各モデルが生成するテキストを作成するよ。各プロンプトは中立的、カジュアル、またはフォーマルになる。生成されたテキストはフォーマル、カジュアル、または一貫性がない(明確さや結束がない)として分類されるんだ。このことで、モデルがフォーマリティの異なるレベルにどう反応するかを見れるんだ。
言語におけるフォーマリティの重要性
言語生成におけるフォーマリティの理解は、いろんな分野でのアプリケーションにとって重要だよ。たとえば、ビジネスは顧客の好みに応じてトーンを調整できるチャットボットを求めているし、機械翻訳においても元のテキストの望ましいトーンを保つことが目標なんだ。
異なる言語におけるフォーマリティ
アラビア語
アラビア語は方言のバリエーションが豊富でユニークなんだ。フォーマルなモダンスタンダードアラビア語と、よりカジュアルな地域方言があるよ。分析のためには、カジュアルな方言からの単語を含まないテキストをフォーマルなアラビア語と定義する。例えば「أين أقرب مسجد؟」(最寄りのモスクはどこですか?)は、モダンスタンダードアラビア語の語彙だけを使ったフォーマルな文だね。
ベンガル語
ベンガル語では、フォーマリティのレベルはしばしば代名詞を通じて表現されるよ。相手との関係に応じて「あなた」を言い換える方法がいくつかあるんだ。たとえば、「Apni」はフォーマルな状況で使われ、「Tumi」はもっとカジュアルだ。サンスクリット由来の単語が多いテキストや特定の動詞形は、よりフォーマルと見なされることがあるよ。
英語
英語では、フォーマリティはしばしば単語の選び方や文構造に関連してる。たとえば、「I’m」ではなく「I am」を使うと、テキストがもっとカジュアルに感じられる。私たちは特定の文法や語彙を見て、フォーマルとカジュアルな英語を分類できるんだ。
フランス語
フランス語にも異なるフォーマリティのレベルがあって、お互いに呼びかける方法で定義されるんだ。フォーマルな「vous」は敬意を表して使われ、「tu」はもっとカジュアルだ。私たちの分析では、ビジネスや法律の文脈に適したフォーマルなテキストとカジュアルな会話用の非フォーマルなテキストを見ていくよ。
スペイン語
スペイン語では、フォーマルとカジュアルの違いは代名詞によって表されるよ。「Tú」はカジュアルで、「usted」はフォーマル。フォーマリティは動詞の活用や全体の文構造にも反映される。フォーマルなスペイン語は文法的なエラーを避け、一貫性を保ってるんだ。
モデルの評価
分析では、XGLMとBLOOMからの応答を生成するために異なるプロンプトを使ったんだ。各言語に対して1,200のテキストが生成された。それらのテキストは、ネイティブスピーカーによってフォーマル、カジュアル、一貫性がないの3つのカテゴリーに分類されたよ。
応答の一貫性
言語生成の重要な側面の1つは、一貫性だよ。一貫性のあるテキストは、意味が通じて理解しやすい。調査結果では、BLOOMは通常、英語やフランス語の特定の言語でXGLMよりも一貫性のあるテキストを生成する傾向があったんだ。でも、大きいモデルが必ずしもより良い一貫性につながるわけじゃなかったよ。
フォーマリティのバイアス
中立的なプロンプトに対するこれらのモデルの反応を見たんだけど、フォーマルなテキストとカジュアルなテキストのバランスを期待してたんだ。驚いたことに、全体的にモデルはよりフォーマルなテキストを生成するバイアスを示したよ。たとえば、アラビア語では、どちらのモデルも中立的なプロンプトでかなりフォーマルな応答を生成したんだ。
プロンプトの影響
XGLMとBLOOMの両方は、プロンプトのフォーマリティに明らかに反応したよ。例えば、カジュアルなプロンプトを与えると、モデルはカジュアルな出力を生成する傾向があったんだ。特にアラビア語ではこの傾向が顕著だったよ。この行動は、彼らがどの文脈で動作しているかに敏感であることを強調してるね。
重要な発見
テキストの長さ
BLOOMはXGLMよりも長いテキストを生成することが多かったよ。特にフォーマルな文でそうだった。会話の文脈では、BLOOMのカジュアルなテキストが短かったけど、フォーマルなテキストよりも句読点や絵文字が多かったんだ。
言語特有の行動
各言語は異なる傾向を示したんだ。たとえば、ベンガル語においてはXGLMがBLOOMよりもカジュアルなスタイルをよく保ててたよ。逆に、BLOOMはアラビア語でフォーマルなスタイルをかなりうまく維持してたんだ。
全体的なフォーマリティの保持
ほとんどの言語で、モデルは与えられたプロンプトのフォーマリティスタイルを保持する傾向があったよ。両モデルは英語やフランス語でフォーマルなスタイルを維持するのに苦労してたけど、カジュアルなスタイルは通常うまく保持されてたんだ。
結論
この分析は、多言語テキスト生成におけるフォーマリティを理解することの重要性を強調してるよ。XGLMとBLOOMの両方は、中立的に促されたとき、フォーマルなテキストを生成する傾向があることを示したんだ。でも、彼らは指定されたフォーマリティレベルにかなり反応するんだよね。
今後の研究はこれらの発見を基にして、多言語モデルのトレーニングを改善し、ユーザーの言語や文化的なニュアンスにより適応できるようにすることができるよ。この理解があれば、チャットボットアプリケーションや翻訳サービスなど、よりよく設計されたモデルを作ることができるかもしれないね。
フォーマリティに焦点を当てることで、世界中のユーザーの多様なニーズに応える言語モデルを作れると思うよ。
タイトル: In What Languages are Generative Language Models the Most Formal? Analyzing Formality Distribution across Languages
概要: Multilingual generative language models (LMs) are increasingly fluent in a large variety of languages. Trained on the concatenation of corpora in multiple languages, they enable powerful transfer from high-resource languages to low-resource ones. However, it is still unknown what cultural biases are induced in the predictions of these models. In this work, we focus on one language property highly influenced by culture: formality. We analyze the formality distributions of XGLM and BLOOM's predictions, two popular generative multilingual language models, in 5 languages. We classify 1,200 generations per language as formal, informal, or incohesive and measure the impact of the prompt formality on the predictions. Overall, we observe a diversity of behaviors across the models and languages. For instance, XGLM generates informal text in Arabic and Bengali when conditioned with informal prompts, much more than BLOOM. In addition, even though both models are highly biased toward the formal style when prompted neutrally, we find that the models generate a significant amount of informal predictions even when prompted with formal text. We release with this work 6,000 annotated samples, paving the way for future work on the formality of generative multilingual LMs.
著者: Asım Ersoy, Gerson Vizcarra, Tasmiah Tahsin Mayeesha, Benjamin Muller
最終更新: 2023-02-23 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2302.12299
ソースPDF: https://arxiv.org/pdf/2302.12299
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/asimokby/formality-bias-analysis
- https://huggingface.co/models
- https://corpus.rae.es/lfrecuencias.html
- https://www.pinhok.com/kb/bengali/98/100-basic-bengali-vocabularies/
- https://talkinarabic.com/arabic-words/
- https://en.wikipedia.org/wiki/Most_common_words_in_English
- https://strommeninc.com/1000-most-common-french-words-frequency-vocabulary/
- https://www.fatimafellowship.com/