Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語# 人工知能

専門家の洞察で言語モデルを評価する

研究が、言語モデルの出力における専門家の意見の重要性を明らかにした。

― 1 分で読む


言語モデルのパフォーマンス言語モデルのパフォーマンスについての専門家の見解調してる。研究はAI生成コンテンツの専門家評価を強
目次

テキストを生成したり質問に答えたりする言語モデルが、どんどん人気になってきてるね。いろんなユーザーがこれらのモデルをいろんな目的で適応させる中で、正確な情報を提供することがめっちゃ重要になってる。特に医療や法律みたいな重要な分野では、間違った情報が深刻な結果を招く可能性があるから。

これまでの研究では、これらのモデルが事実やソースをどのように提示するかを見てきたけど、特定の分野にはあまり焦点を当ててなかった。そこで、私たちは評価研究を実施して、専門家からの意見をもとに、これらのモデルがどれぐらい正確に情報を提供し、ソースを引用しているかを調査したんだ。

研究の概要

私たちの研究では、32の分野の専門家に意見を求めて、質問と回答を作成・評価したよ。484人の専門家から専門家が作成した質問を集めて、それに対して言語モデルが生成した回答を評価してもらった。さらに、専門家たちがその回答を見直して正確性を確保した結果、高品質なデータセットであるExpertQAが生まれたんだ。

ExpertQAは、さまざまな分野からの2,177の質問と、専門家が確認した回答で構成されている。各回答には、専門家がその正確性とその主張を支持するために使用されたソースの信頼性に基づいて評価した主張が含まれてる。

専門家の意見の重要性

言語モデルが多くの分野で採用される中で、専門家の役割は出力の質を評価する上でめっちゃ重要。例えば、医療専門家は診断や文献レビューにこれらのモデルを依存することがあるけど、誤情報が含まれてると混乱を招いたり、AIツールへの信頼が失われたりするんだ。

生成された回答の信頼性を強化するために、引用を提供するのは有望な解決策だね。でも、こうした引用の質や、回答の事実の正確性は、特に特定の分野においてはまだあまり探求されてないんだ。

専門家が作成した質問の収集

私たちの研究の最初のステップは、専門家から質問を集めることだった。少なくとも3年の経験があるプロフェッショナルに意見を求めて、各専門家に自分の専門知識に基づいて5つの挑戦的な質問を作るようにお願いした。3000以上の質問が集まり、関連性に基づいてフィルタリングした結果、合計で2,507の質問が得られたよ。

質問は幅広く多様で、さまざまなトピックや情報ニーズをカバーできた。こうして専門家を巻き込むことで、質問が実際のシナリオに沿ったものになるようにしたんだ。

言語モデルからの回答生成

質問が整理されたら、いくつかの言語モデルシステムから回答を生成したよ。このシステムたちは、引用を伴った回答を出してくれた。生成された回答は主張に分けて、各主張を専門家が個別に評価できるようにしたんだ。

専門家には、回答の質を評価してもらうために、証拠による支持の有無や、情報量、証拠の信頼性などさまざまな要素を考慮してもらった。この評価プロセスでは、回答がどれだけ有用か、主張がどれだけ事実に基づいているか、ソースがどれだけ信頼できるかを評価したよ。

回答の評価

回答を生成した後、専門家にその回答を検証してもらった。このプロセスは、専門家が自分の質問への回答の質を正確に評価できるのでめっちゃ有益だった。評価は系統的に以下の要素に分けて行ったよ:

回答の有用性

専門家は、完全な回答が質問に答えるのにどれほど役立ったかを評価した。有用性は、完全に役立つ、部分的に役立つ、全く役立たないのスケールで評価した。

主張の帰属

専門家は、各主張がその証拠によって支えられているかどうかを判断した。サポートの完全性を完全、部分的、不完全に分類したよ。証拠が提供されていなければ、サポートは欠落とされる。

主張の情報量

専門家は、各主張が全体の質問にどれだけ関係しているかにラベルを付けた。ラベルは、非常に関連性があるから情報がほとんどないまで多様だった。

主張の事実性

専門家はまた、自分の専門知識と提供された証拠に基づいて各主張の正確性を評価した。主張は、確実に正しいから確実に間違っているまでのスケールで評価された。この注意深い評価によって、各主張の事実の正確性をしっかり評価することができたんだ。

証拠ソースの信頼性

専門家は、証拠が引き出されたソースの信頼性を考慮した。信頼できる、やや信頼できる、全く信頼できないのスケールで評価した。このステップは、言語モデルが提示する情報の信頼性を確立する上でめっちゃ重要だったよ。

評価からの発見

評価プロセスが終わった後、異なる言語モデルシステムのパフォーマンスを理解するために結果を分析したよ。私たちの発見からは、いくつかの重要な傾向が見えてきた:

生成された回答の有用性

全体的に、モデルが提供した回答はほとんどが有用だと判断された。ただし、純粋に生成されたシステムからの回答は、情報を基にしたシステムからのものよりも役立つことが多かった。回答の有用性は、生成方法によって異なったよ。

帰属の完全性

情報を引き出して読むシステムは、完全な帰属を生成する傾向があったが、純粋に生成技術に頼るモデルに比べてそうだった。ただし、これらのシステムは、専門家が必要と考えるすべての主張に対して引用を提供するのに苦労していた。

ソースの信頼性

専門家は、帰属の質と全体的な事実性が、引き出しに使用されたソースによって影響を受けることに気づいた。医療や法律のような高リスクの分野では、多くの主張が信頼できる帰属を持っていなかったんだ。これは、クリティカルな分野における提供される情報の質について懸念を引き起こした。

自動メトリクスとの相関

帰属と事実性を評価するさまざまな自動メソッドを専門家の判断と比較してテストしたけど、私たちの分析では強い相関関係が見られなかった。しかし、メソッドを私たちのデータセットに適応させたところ、パフォーマンスの改善が見られたよ。

高品質なデータセットの作成

評価プロセス中に集められた修正された回答は、ExpertQAという高品質な長文質問回答データセットの基盤を形成している。このデータセットは、将来のモデルを改善し、そのパフォーマンスをより効果的に評価するように設計されてるんだ。

ExpertQAは、専門家によって検証された回答を含んでいて、専門家が日常的に直面するかもしれない現実的な質問に焦点を当てているから、特に注目される。既存のデータセットはこうした質を欠いていることが多いから、ExpertQAはこの分野にとって貴重な貢献となっているよ。

アノテーションプロセスの分析

ExpertQAのアノテーションプロセスは、いくつかの段階に分かれて進行した。最初に専門家が質問を作成し、その後生成された回答の評価を行った。この徹底した評価によって、言語モデルがさまざまな分野の専門家にどのようにより良くサービスできるかを包括的に理解することができたんだ。

研究では、専門家が主張の評価に高い合意を示したことがわかった。判断にはいくつかの主観性があったけど、全体として結果はアノテーターの間で強いコンセンサスがあることを示したよ。

結論

私たちの研究は、特に高リスクの分野において、言語モデルの出力を評価する上での専門家の関与の重要性を強調している。これらのモデルは潜在的な利点を提供するけれど、その正確性と信頼性を確保するためにはまだ多くの作業が必要なんだ。

ExpertQAを作成することで、言語モデルの性能を向上させるだけでなく、事実性や帰属の評価も強化するベンチマークを確立した。私たちの発見は、ドメイン専門家との継続的な協力が、信頼できて正確な情報を提供できるモデルを開発するために不可欠であることを強調しているんだ。

これからの道は、言語モデルを改善するためのより効果的な方法を開発し、さまざまな分野の専門家の具体的なニーズを理解することに向かっている。継続的な研究と協力を通じて、言語モデルの可能性をより良く活用して、専門家が知識を追求するのをサポートできるようにしていこう。

今後の展望

今後、さらなる研究が必要な分野はいくつかある:

  • ExpertQAのカバレッジを広げて、より多様な分野や質問を含めること。
  • 言語モデルが生成する主張の正確性を向上させるための追加の方法を調査すること。
  • 専門家評価プロセスを効率化するフレームワークを開発し、時間を節約すること。
  • 自動評価メソッドを強化して、専門家の判断とより良く合致させること。

これらの分野に取り組むことで、言語モデルをさらに洗練させ、正確で信頼できる情報を求める専門家のニーズに応えられるようにしていきたいね。

オリジナルソース

タイトル: ExpertQA: Expert-Curated Questions and Attributed Answers

概要: As language models are adopted by a more sophisticated and diverse set of users, the importance of guaranteeing that they provide factually correct information supported by verifiable sources is critical across fields of study. This is especially the case for high-stakes fields, such as medicine and law, where the risk of propagating false information is high and can lead to undesirable societal consequences. Previous work studying attribution and factuality has not focused on analyzing these characteristics of language model outputs in domain-specific scenarios. In this work, we conduct human evaluation of responses from a few representative systems along various axes of attribution and factuality, by bringing domain experts in the loop. Specifically, we collect expert-curated questions from 484 participants across 32 fields of study, and then ask the same experts to evaluate generated responses to their own questions. In addition, we ask experts to improve upon responses from language models. The output of our analysis is ExpertQA, a high-quality long-form QA dataset with 2177 questions spanning 32 fields, along with verified answers and attributions for claims in the answers.

著者: Chaitanya Malaviya, Subin Lee, Sihao Chen, Elizabeth Sieber, Mark Yatskar, Dan Roth

最終更新: 2024-04-01 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2309.07852

ソースPDF: https://arxiv.org/pdf/2309.07852

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事