多言語モデルの毒性評価
新しいデータセットは、言語モデルが文化ごとに有害なコンテンツをどう扱うかを評価してるよ。
― 1 分で読む
大規模言語モデル(LLM)と小規模言語モデル(SLM)が色んな分野で人気になってきてるけど、安全性についての懸念は残ってるんだ。これらのモデルを使う上で大事なのは、有害な言語をどれだけうまく認識できるか、特に異なる言語や文化でのことを理解すること。多言語モデルが出てきてるから、リリースされるスピードに合わせて安全性を評価できるのかが重要だよね。
そこで、新しいデータセット「RTP-LX」を作成したんだ。このデータセットには、28の言語で有毒なプロンプトとその応答が含まれてる。RTP-LXは、最初はわからないかもしれない有害な言語を見つけるために文化的な詳細を考慮して作られたんだ。
7つの異なるS/LLMをテストして、どれだけ有害なコンテンツを識別できるかを調べたよ。結果として、これらのモデルは正確性の面ではいい感じだけど、有害性を総合的に評価する際には人間の判断と一致しないことが多かった。特に文脈が関わる場合、微妙な侮辱や偏見を認識するのが難しいみたい。
有害性評価の必要性
LLMとSLMが色々なアプリケーションで使われるようになってきて、危険なコンテンツが生成されるリスクも高まってる。これらのモデルは、インターネット上のデータから学ぶから、毒を含む言語も多い。もっと多様な多言語モデルを開発する中で、様々な言語で有毒な言語を見つける効果的な方法が必要だね。
この論文では、文化や言語を超えて有毒な言葉を認識できるかを評価するために特別に作られたデータセット、RTP-LXを紹介するよ。目標は、これらのモデルが安全に使えるようにして、有害なコンテンツを避けること。
RTP-LXって何?
RTP-LXは「RTP-Language eXpanded」の略で、28言語の有毒なプロンプトとそのプロンプトに対する応答を含むデータセットだ。文化特有の有害な言語を含めつつ、言語の有毒性を慎重に評価して作られたよ。
RTP-LXの作成には人間の翻訳と注釈付けが含まれてた。母語話者の専門知識を借りて、データセットが言語と文化のニュアンスを正しく反映するようにしたんだ。母語話者と協力することで、非母語話者には見落とされがちな有害なコンテンツをうまく捉えることができた。
モデルの評価方法
選ばれたS/LLMのパフォーマンスを評価するために、RTP-LXデータセットを使って、モデルの出力と人間のジャッジからの注釈を比較した。モデルが特に異なる言語や文化の文脈で有害なコンテンツをしっかりと識別できるかを見たかったんだ。
評価には、S/LLMに提供されたプロンプトに基づいて有毒なコンテンツを特定するタスクを含めた。人間の判断とどれだけ一致するかを測るために、いろんな指標を使って性能を測ったよ。モデルは正確さでは良いスコアを獲得したけど、有害なコンテンツの微妙な理解には大きなギャップがあった。
結果
一般的なパフォーマンス
結果は、S/LLMは一般的に受け入れられるレベルの正確さを達成したことを示した。ただ、プロンプトの全体的な有毒性を評価する際には、人間の判断と大きな食い違いがあった。この食い違いは、微妙な形の有害性、たとえばマイクロアグレッションや偏見が存在する文脈依存の状況で特に顕著だった。
私たちの調査では、GPT-4 TurboやGemma 7Bのようなモデルが全体的には最も良いパフォーマンスを示したけど、やっぱり微妙な有害な言葉の認識には苦労してた。一部のモデル、特にGemma 2Bのような小さいモデルは、有毒性を特定するのがあまり得意じゃなかったよ。
検出の課題
多言語で文化的に敏感な文脈で有毒な言語を検出するのは複雑なんだ。多くのモデルは、より微妙な形の有害性を見落としがちだった。例えば、暴力や性的コンテンツの明確な事例を特定するのは得意だけど、特定のグループを傷つける可能性のあるジョークや言及を見つけるのには苦労してた。
これは現在のS/LLMの能力における大きな制限を示してる。モデルは必要以上に高いラベルを出すことが多く、重要な有害なコンテンツを見逃したり、無害なコンテンツを有害と誤認する状況が生まれてしまうんだ。
文化的敏感さの重要性
言語モデルを評価する際には、文化的敏感さが重要だよ。RTP-LXデータセットはこの点を考慮して作られていて、たくさんの有害な表現は文化的な文脈に深く結びついてる。たとえば、一つの文化では害がないように見えるフレーズが、別の文化では歴史的や社会的な理由で非常に攻撃的になり得るってこともある。
RTP-LXの作成プロセスでは、異なる言語で有毒性を理解する独自の課題を反映した文化的に関連するプロンプトを集めた。これにより、評価が各モデルのこれらの微妙な点を理解する能力を正確に測ることができるようにしたんだ。
今後の方向性
モデルが有害な言語を認識する効果を向上させるために、さらに研究が必要だね。RTP-LXデータセットをもっと方言や言語的バリエーションを含めるように拡張する必要がある。これにより、異なる言語的文脈や有毒性の認知に影響を与える言語的特徴をより広く理解できるようになる。
さらに、モデルのトレーニング方法の改善にも焦点を当てる必要があるよ。特に微妙で文脈に敏感な言語を扱う能力の向上が求められてる。これらの技術が急速に発展してるから、その安全対策を維持することが大事だね。
結論
RTP-LXは、多言語コンテキストにおける有毒言語検出の課題に対処するための重要なステップだよ。テストしたS/LLMは合理的な正確さを達成したけど、微妙なコンテンツへの苦戦はまだ解決すべきギャップを浮き彫りにしてる。文化的敏感さと言語の多様性は、今後のモデル開発や評価の最前線に置くべきだね。
私たちの研究は、S/LLMが様々な言語や文化的背景で有害なコンテンツをよりよく検出できるようにするための貴重な洞察を提供するよ。アプローチと技術を精査し続けることで、言語モデルの安全な展開を目指し、オンライン空間での有害な言語の影響を減少させていこう。
未来を見据えると、言語理解のためにもっと信頼性の高いシステムを構築することが、健康的で敬意のあるオンラインコミュニケーションを促進するための鍵になることは明らかだね。
タイトル: RTP-LX: Can LLMs Evaluate Toxicity in Multilingual Scenarios?
概要: Large language models (LLMs) and small language models (SLMs) are being adopted at remarkable speed, although their safety still remains a serious concern. With the advent of multilingual S/LLMs, the question now becomes a matter of scale: can we expand multilingual safety evaluations of these models with the same velocity at which they are deployed? To this end, we introduce RTP-LX, a human-transcreated and human-annotated corpus of toxic prompts and outputs in 28 languages. RTP-LX follows participatory design practices, and a portion of the corpus is especially designed to detect culturally-specific toxic language. We evaluate 10 S/LLMs on their ability to detect toxic content in a culturally-sensitive, multilingual scenario. We find that, although they typically score acceptably in terms of accuracy, they have low agreement with human judges when scoring holistically the toxicity of a prompt; and have difficulty discerning harm in context-dependent scenarios, particularly with subtle-yet-harmful content (e.g. microaggressions, bias). We release this dataset to contribute to further reduce harmful uses of these models and improve their safe deployment.
著者: Adrian de Wynter, Ishaan Watts, Nektar Ege Altıntoprak, Tua Wongsangaroonsri, Minghui Zhang, Noura Farra, Lena Baur, Samantha Claudet, Pavel Gajdusek, Can Gören, Qilong Gu, Anna Kaminska, Tomasz Kaminski, Ruby Kuo, Akiko Kyuba, Jongho Lee, Kartik Mathur, Petter Merok, Ivana Milovanović, Nani Paananen, Vesa-Matti Paananen, Anna Pavlenko, Bruno Pereira Vidal, Luciano Strika, Yueh Tsao, Davide Turcato, Oleksandr Vakhno, Judit Velcsov, Anna Vickers, Stéphanie Visser, Herdyan Widarmanto, Andrey Zaikin, Si-Qing Chen
最終更新: 2024-12-16 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2404.14397
ソースPDF: https://arxiv.org/pdf/2404.14397
ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。