Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語

大規模言語モデルのパーソナリティを評価する

LLMがMBTI分析を通じて人間のような性格を持ってるか調査中。

― 1 分で読む


LLMのための性格テストLLMのための性格テストか探ってみる。LLMがどんなふうに性格や適応力を見せる
目次

最近、ラージ・ランゲージ・モデル(LLM)の分野がすごく成長してきて、これらのモデルは人間のように多くの情報を持つようになってきてる。最近の手法、例えばプロンプト学習や強化学習は、倫理や正確性の面でLLMを改善するのに役立ってる。そこで面白い質問が出てくるんだ:人間のように行動できるLLMは、人間のようなパーソナリティも持ってるの?

この記事では、人間のパーソナリティを評価するための有名なツール、マイヤーズ・ブリッグス・タイプ指標(MBTI)を使って、LLMでも機能するかを見てみるよ。私たちの目的は、主に3つのことを知ること:1)さまざまなLLMのパーソナリティタイプは何か、2)特別なプロンプトを使ってこれらのパーソナリティを変えられるか、3)モデルを訓練するために使われたデータがパーソナリティにどう影響するか。MBTIは完璧じゃないけど、LLMが人間のパーソナリティにどれだけ近いかの概略を示してくれるかもしれない。

イントロダクション

ChatGPTのようなシステムの登場で、多くの新しいLLMやチャットボットが生まれた。これらのシステムはユーザーが自然に質問できるようにして、モデルはその膨大な知識を使って詳しくて一貫性のある回答を出してくれる。一部の研究では、LLMが人間のような思考や学び方をする能力を持っているかもしれないって示唆されていて、彼らに独自のパーソナリティがあるかどうかの疑問が生まれてる。

この評価をするために、MBTIを借りて、4つの主なパーソナリティの違いに基づいて16種類のパーソナリティタイプを特定するよ。これらの分野は、人々がエネルギーをどう得るか(外向性 vs 内向性)、情報をどう集めるか(感覚 vs 直感)、どう意思決定をするか(思考 vs 感情)、そして生活をどう整理するか(判断 vs 知覚)を見てる。

パーソナリティテスト

人々はよくINTJタイプを戦略的な思考者として考えるけど、じゃあ人間の能力を模倣するLLMは同じような特性を示せるの?

いくつかの研究では、MBTIのような人間のパーソナリティテストを使ってLLMのパーソナリティをチェックしようと試みてる。MBTIテストはカール・ユングの理論に基づいていて、自分の好みと他者との相互作用を理解する助けになる。この評価は、就職活動や自己成長など、さまざまな場面で使われてる。

このテストの人気にもかかわらず、人工一般知能(AGI)を作るのはまだ難しい。倫理的な問題や誤った情報(いわゆるハルシネーション)といった大きな課題が進展を妨げてる。LLMはインターネットから得た膨大なデータセットを使うけど、これがバイアスや不正確な情報の問題を引き起こすことがある。虚偽情報を出すモデルは、まるで不誠実な人と関わるかのように、イライラさせる体験を提供する。

幸い、プロンプトエンジニアリングや人間のフィードバックを訓練中に使う新しい方法が、LLMの安全性や倫理を改善することを目指してる。一部のモデルは指示に従うのが得意になって、役割演技にも参加できるようになり、人間の価値観や好みにより近づいてる。

LLMのMBTIタイプ

異なるLLMが異なるパーソナリティを持ってるかを探るために、ChatGPTやGPT-4のような有名なモデルを分析した。初期の結果では、これらのモデルがMBTIプロファイルに似た異なるパーソナリティタイプを示していることがわかった。例えば、ChatGPTはENTJタイプで、自己主張が強く意見を共有するのが得意で、GPT-4はINTJに分類され、批判的思考や計画のエキスパートとされてる。

これらのパーソナリティタイプはモデルごとに異なり、LLMがさまざまなパーソナリティの好みを示してることを示唆してる。いくつかのモデルは特定の特性で明確な違いを見せてる一方で、他のモデルはより穏やかな変動を示してる。

さらに、パラメータが少ないモデルはより外向的なパーソナリティが傾向として強く、逆に大きいモデルは内向的な特性を持つことが多い。この観察は、これらのパーソナリティが変更可能かどうかという疑問を引き起こす。

LLMのパーソナリティを変える

私たちは、プロンプトエンジニアリングによってLLMのパーソナリティを変えられるか調べた。これは特定のプロンプトを使って、LLMのMBTIタイプに影響があるかを見ることを含んだ。私たちは、役割のための明確な指示を与える明示的なプロンプトと、直接的な指示なしに例を示す暗示的なプロンプトの2種類を使って実験した。

あるケースでは、明示的なプロンプトを使うことでLLMのパーソナリティを小さく変えることができることがわかった。例えば、BloomというLLMは、役割の説明に基づいてISTJタイプからINTPタイプに変わった。それでも、変化は最小限で、一つの質問からの結果だった。

同様に、暗示的なプロンプトを使った場合、LLMのパーソナリティはほとんど変わらず、これらのモデルが簡単には適応できないという考えを強化した。

しかし、指示に従うことが得意なChatGPTのようなモデルにこれらのプロンプトを適用したときは、明示的および暗示的な変化の両方に対してより反応が良かった。これは、適切なトレーニングがあれば、LLMがパーソナリティをより柔軟に適応できる可能性があることを示唆してる。

トレーニングデータの役割

次に、LLMを訓練するために使われるデータがそのパーソナリティにどう影響するかを調べた。異なる種類のトレーニングデータは、モデルによって異なるパーソナリティ結果をもたらすかもしれない。いくつかのモデルに注目して、Wikipediaの一般知識や質問-回答ペアなど、さまざまなデータセットにさらした。

異なるデータで訓練した後、顕著な変化が見られた。例えば、Bloomは特定のデータセットに曝露された後にパーソナリティタイプが変わった。しかし、すべてのLLMが同じように反応するわけではなく、一部はトレーニングデータの変更にもかかわらず最初のタイプを保持してた。

Wikipediaのデータセットを使った結果を分析した時、いくつかのモデルがよりバランスの取れたパーソナリティにシフトするのを助けることがわかった。別のシナリオでは、質問-回答データセットを使用したことで、LLMは応答を整理する方法に基づいて柔軟性や適応性が向上した。

さらに、評価資料での訓練は彼らの推論能力を向上させ、特定のデータセットに曝露された後に特定のパーソナリティの側面がより顕著になった。

MBTIでLLMを評価する

MBTIは一定の洞察を提供するけど、その限界を認識することも重要だ。MBTIの評価は有効性や信頼性が批判されてきたし、さらに人々のパーソナリティは状況や感情状態によって変わることがあるから、決定的なツールとしての使用が難しくなる。

その不完全さにもかかわらず、多くの人がMBTIを使って個人やプロの成長に価値を見出してる。これが、LLMの評価にどれほど役立つかを考えるきっかけになってる。

私たちの分析では、モデル間で特定のMBTI特性に対して異なるパターンが見られた。思考と感情のような次元はLLMを評価するのにより関連性があり、外向性と内向性の側面は機械にはあまり適用できないように思えた。

まとめると、MBTIの特定の次元はLLMを評価するのに役立つことがわかり、特に推論能力や指示に従う能力の分野で有効だった。

LLMに理想的なパーソナリティタイプ

人間にとって、各MBTIタイプはユニークなパーソナリティを表してる。でもLLMにとってはどのタイプがベストなんだろう?論理的思考や計画能力が強いINTJタイプのモデルは、ユーザーへの協力や指導が必要なタスクに適してるかもしれない。しかし、ロールプレイングのような特定の状況では、LLMはユーザーのニーズや期待に応えるために適応する必要がある。

結論

人間のような能力を持つLLMが人間のようなパーソナリティを示すかを探求した結果、いくつかの重要な洞察を得た。LLMは多様なパーソナリティを示し、彼らのタイプは適切な訓練なしには簡単には変えられない。受け取るトレーニングデータの種類も彼らのパーソナリティを形成することができる。

MBTI評価はパーソナリティの厳密な測定を提供するわけではないけど、LLMが人間のパーソナリティ特性とどのように関連するかの粗い指標としては役立つ可能性がある。将来的には、より多様なデータセットやパーソナリティ評価を含めて、LLMの機能をより深く理解するための研究が広がっていくことが期待される。

私たちは、LLMの推論能力や常識理解を向上させるような分野に研究を広げていきたいと思ってる。資源の制限にもかかわらず、より大きなモデルや拡張されたデータセットを使えば、さらなる発見が可能になるかもしれない。

オリジナルソース

タイトル: Do LLMs Possess a Personality? Making the MBTI Test an Amazing Evaluation for Large Language Models

概要: The field of large language models (LLMs) has made significant progress, and their knowledge storage capacity is approaching that of human beings. Furthermore, advanced techniques, such as prompt learning and reinforcement learning, are being employed to address ethical concerns and hallucination problems associated with LLMs, bringing them closer to aligning with human values. This situation naturally raises the question of whether LLMs with human-like abilities possess a human-like personality? In this paper, we aim to investigate the feasibility of using the Myers-Briggs Type Indicator (MBTI), a widespread human personality assessment tool, as an evaluation metric for LLMs. Specifically, extensive experiments will be conducted to explore: 1) the personality types of different LLMs, 2) the possibility of changing the personality types by prompt engineering, and 3) How does the training dataset affect the model's personality. Although the MBTI is not a rigorous assessment, it can still reflect the similarity between LLMs and human personality. In practice, the MBTI has the potential to serve as a rough indicator. Our codes are available at https://github.com/HarderThenHarder/transformers_tasks/tree/main/LLM/llms_mbti.

著者: Keyu Pan, Yawen Zeng

最終更新: 2023-07-30 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2307.16180

ソースPDF: https://arxiv.org/pdf/2307.16180

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

類似の記事