言語モデルにおける常識知識の評価
AIモデルの常識推論をオープンエンドのタスクで評価する新しい方法。
― 1 分で読む
目次
大規模言語モデルは、常識的なタスクをうまくこなせることが分かってきた。でも、多くのタスクは選択肢形式になってて、これがモデルにバイアスを利用させることがあるんだ。常識的な知識は扱いが難しくて、正解が1つじゃないことが多い。たとえば、沸騰させた水は、お茶を作るため、料理のため、または水を浄化するためかもしれない。現在のテストは、この常識的な推論における不確実性を反映していない。
これを解決するために、私たちは「常識フレーム補完(CFC)」という新しい評価方法を作った。このタスクでは、モデルがオープンエンドの質問に対して回答を生成することが求められる。データセットと評価方法は他の人が使えるように公開しているし、私たちは人間がどのように回答を評価するかに近い方法も開発した。結果は、人間が常識的な推論を求められたとき、最高の言語モデルよりもずっと優れていることを示している。
選択肢形式質問の問題
既存の常識テストのほとんどは選択肢形式に集中している。これによりモデルのパフォーマンスを簡単に評価できるが、限界もある。この方法は、常識的な知識の狭い視点しか提供しない。選択肢形式の場合、モデルはしばしば小さな回答セットを使うことになる。意味のある、挑戦的な選択肢を作るのは難しい。もっと重要なことに、常識的な知識はしばしば暗黙的なものだ。一般的に真実であるが、明示的に述べられないことを理解することが含まれている。選択肢形式の質問では、この知識を予測不可能な方法で使う能力を捉えられない。また、常識的な推論は本質的に不確実性で満ちているので、テストもこれを反映する必要がある。
従来の評価は、モデルと人間のパフォーマンスを最善の試みに基づいて比較してきた。私たちのアプローチは、類似の回答をカテゴリにグループ化することで、より包括的な回答選択肢を評価している。この方法は、回答の分布を見て、モデルの常識的な能力をより良く測ることができる。
選択肢形式を超えて
選択肢形式の評価の限界を克服するために、多くの最近のテストが生成的な常識評価を使い始めている。この形式には利点があって、難しい否定例を作る課題を避けられる。ただ、特に常識的な質問においては、多くの有効な回答があることを反映していない。
たとえば、「水を沸騰させた」と誰かが言った場合、常識的には料理やお茶を作るためにされることが多い。ただ、清潔な飲み水が手に入らない地域では、人々は沸騰させることでバイ菌を殺す手段として見るかもしれない。この複雑さは、ベンチマークを作るときに見落とされがちだ。モデルが多様な人々に関連できるようにするには、複数の回答を集めることが重要だ。この範囲に注目すると、実世界の状況に必要な常識的な知識がより明確になる。
この新しい枠組みでは、正しい回答が複数存在する可能性のある常識的な質問に取り組む必要がある。過去の研究の中には評価にクラスタリングとランキング方法を使う提案もあったが、深みが足りないことがある。代わりに、私たちは常識的な知識の複雑さを受け入れ、より大きなグループからの可能な回答の分布をどれだけ反映できるかでモデルの成功を測る。
常識フレーム補完(CFC)の紹介
CFCは、文の文脈で欠けている情報を見つけることに注目している。このタスクは常識の暗黙的な性質を強調し、ユーザーのリクエストを理解することが重要なホームアシスタントのようなアプリケーションに直接つながる。CFCでは、日常のシナリオにおけるこの欠けた情報を探すことから質問が形成される。各文脈と質問に対して、人々から多様な回答を収集した。
これらの異なる回答を効果的に評価するために、新しい方法を作った。異なる人々からの回答は大きく異なることがあるし、常識はしばしばほとんどの人に共有される知識として定義される。すべての回答が重要であることを確保するために、私たちは確率的な視点から回答を分析する。具体的には、回答をクラスタリングし、その頻度に基づいてこれらのクラスタの分布を見ている。モデルがこれらの分布と比較してどのように回答するかで判断される仕組みも整えている。
データセットの作成方法
CFCデータセットの作成プロセスは、自然に常識的な知識を含む文脈文を集めることから始まった。私たちは日常生活についてのさまざまな文を含むデータセットを使用した。これらの文から、暗黙的な情報を探し、欠けている部分を特定した。そのために、文を意味的な要素に分解して、どの情報が欠けているのかを特定する方法を用いた。
多くの文脈と質問のペアを生成した後、オンラインの作業者に欠けている情報を注釈付けしてもらった。欠けているタイプの良いミックスがあることを確保した。最終データセットには、文脈文、欠けた情報、さまざまなソースからのいくつかの回答が含まれている。
確率分布の理解
オープンエンドのタスクで複数の人に回答を求めると、同じアイデアを表現する多くの回答が出ることがある。私たちの主な目標は、回答のユニークな言い回しに焦点を当てるのではなく、それらが表す共有の概念に焦点を当てることだ。たとえば、なぜ誰かが水を沸騰させたのかを尋ねると、「ケトル」と「ティーポット」は同じアイデアを反映しているかもしれない。
これを評価するために、回答をクラスタリングし、特定のクラスタから回答を得る確率を表現する分布に変換する。これにより、回答の多様性をより管理しやすい形に簡素化する。
収集する回答の数の決定
可能な回答の数は膨大で、実際の回答分布を正確に反映するために、十分に集めることが重要だ。これは統計学でよく知られた問題だ。確立された方法に従うことで、収集する回答の数を決定できる。バランスの取れたアプローチを採ることで、安定した回答分布を得られることが分かった。
CFCの質問の種類
大量の文脈と欠けた情報のペアを収集した。これらのペアごとに、クラウドワーカーから少なくとも100の回答を目指した。このプロセスによって、堅牢なアノテーションセットが得られた。各質問のタイプは、時間や文脈の理解など、常識的な推論の異なる側面に関連している。
新しい評価方法
次に、複数の正解を評価する方法に注目する。常識的な知識の概念をより確率的に緩和したため、厳格な評価方法が必要だ。人間とモデルの両者に与えられるタスクは、単に最善の選択肢を選ぶのではなく、質問に答える形式で構成されている。
人間が生成した回答とモデルの回答の類似性を評価するために、意味のあるクラスタに回答をグループ化する構造を作った。これらのクラスタの分布を比較することで、モデルが常識的な知識をどれだけ理解しているかについての洞察を得ることができる。
自動評価フレームワーク
私たちの一般的な評価フレームワークに基づいて、モデルの回答を評価するための自動メトリックを提案する。これにはいくつかの重要なステップが含まれる:
- 回答を数値ベクトルとして表現する。
- これらのベクトルを自動でクラスタリングする。
- モデルの回答を人間のクラスタと似ているかどうかでマッチさせる。
私たちはさまざまな技術を試して、最終的に実際に効果的であることが証明された方法に落ち着いた。
評価者の検証
私たちの評価方法の正確性を確認するために、2つのデータセットを使って人間の判断と比較した。目標は、私たちの自動評価が人間が同じモデル出力を評価したときの評価と密接に一致することを示すことだ。
私たちは、異なる条件下での私たちの方法のパフォーマンスを評価するために、多様な回答分布を作成することから始めた。人間の回答とモデルの予測からサンプリングすることで、モデルの回答がどれだけ我々の基準クラスタに一致しているかを評価した。
言語モデルのパフォーマンス
私たちが開発した自動評価方法を使用して、さまざまな言語モデルがCFCでどれだけよく機能するかを見た。私たちは、人間とモデルの間に значительное разрыв в производительности, что подтверждает сложность нашей задачи.
Мы протестировали различные большие языковые модели, включая нулевое количество попыток и настройки дообучения. Даже модели с наилучшей производительностью все еще отставали от человеческой производительности, что подчеркивает необходимость улучшений в этой области.
Будущая работа и соображения
Наш подход признает, что собранные нами ответы может не полностью отражать глобальное разнообразие, но это можно рассматривать как шаг в правильном направлении. Мы планируем расширить наш набор данных, чтобы включить ответы из более широкого спектра культур и языков.
Кроме того, мы понимаем, что наш оценщик может быть подвержен определенным недостаткам из-за его автоматизированного характера. Некоторые модели могут достичь высоких результатов, не преуспевая на самом деле в поставленной задаче. Будущая работа будет сосредоточена на сочетании символического рассуждения с нейронными методами, чтобы укрепить нашу оценочную структуру.
Заключение
В заключение, мы выдвинули идею о том, что общие знания можно рассматривать как распределение возможностей, а не как строгие факты. Мы разработали набор данных для оценки этих знаний через генеративные задачи. С нашим новым методом оценки мы можем выявить значительные разрывы в производительности между людьми и существующими моделями машинного обучения, подчеркивая области для дальнейшей разработки и исследований.
По мере продвижения вперед, расширение набора данных и уточнение нашего оценщика будут ключевыми факторами для улучшения нашего понимания общих рассуждений. Эта работа закладывает основу для более сложных моделей, которые могут лучше имитировать человеческое понимание мира.
タイトル: Every Answer Matters: Evaluating Commonsense with Probabilistic Measures
概要: Large language models have demonstrated impressive performance on commonsense tasks; however, these tasks are often posed as multiple-choice questions, allowing models to exploit systematic biases. Commonsense is also inherently probabilistic with multiple correct answers. The purpose of "boiling water" could be making tea and cooking, but it also could be killing germs. Existing tasks do not capture the probabilistic nature of common sense. To this end, we present commonsense frame completion (CFC), a new generative task that evaluates common sense via multiple open-ended generations. We also propose a method of probabilistic evaluation that strongly correlates with human judgments. Humans drastically outperform strong language model baselines on our dataset, indicating this approach is both a challenging and useful evaluation of machine common sense.
著者: Qi Cheng, Michael Boratko, Pranay Kumar Yelugam, Tim O'Gorman, Nalini Singh, Andrew McCallum, Xiang Lorraine Li
最終更新: 2024-06-06 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2406.04145
ソースPDF: https://arxiv.org/pdf/2406.04145
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。