言語モデルからの健康に関する応答の評価
学生たちは、大規模言語モデルの健康に関する回答の正確性と安全性を評価する。
― 1 分で読む
最近の言語技術のコースでは、グループがプロジェクトに取り組んで、大規模言語モデル(LLM)が健康関連の質問に対してどんな回答をするかを評価することに焦点を当てたんだ。目的は、これらのモデルが臨床的な質問に対して有害または誤解を招くような回答をするかどうかを確認することだった。プロジェクトは学生からフィードバックを集め、自然言語処理(NLP)に関わる教師に役立つインサイトを提供することを目指していたよ。
コースの概要
言語技術の基礎コースは、学部生と大学院生の両方に学生を対象に、NLPの基本的なアイデアとツールを紹介している。2023/2024年度のカリキュラムは、最新のLLMに関する情報を含むように更新された。このコースは、学生が概念を理解できるようにするために、14回の講義と9回のコーディング実習で構成されている。
共有タスクの目的
この共有タスクは、学生にNLPの方法を使って現実の問題を解決する実践的な経験を提供するために設計された。データの注釈付け、データの準備、モデルの構築、モデルの有効性の評価が含まれていた。
タスクの設計
このプロジェクトは、科学的事実確認のカテゴリに該当し、最近の研究とも密接に関連している。タスクの目的は、信頼できる科学的証拠に基づいて、LLMの出力を評価することだった。具体的な目標は二つあった:
- 専門家の回答と比較して、LLMの回答に有害な情報が含まれているかを特定すること。
- LLMの回答を特定のカテゴリーに分類すること。
データセット
学生たちは、臨床質問に対する短い証拠に基づいた回答を提供する信頼できるソースであるコクラン臨床回答を使用した。2021年から2023年の間に発表された500件の回答を集め、正確で真実であるとみなされた。
タスクの実施
共有タスクは4つの部分から成り立ち、2〜3人のメンバーで構成されたチームが必要だった。最初の2つの部分はデータの注釈付けと準備に関連し、残りの部分はモデルの作成とテストに焦点を当てていた。
最初の2つの部分では、チームは10の臨床質問と回答のセットを扱った。彼らは注釈プラットフォームを設定し、回答にラベルを付け、注釈者間の合意を計算しなければならなかった。学生が重要な医学用語を理解するのを助けるために、より簡単な説明の辞書も提供された。
合計55チームがこれらの初期部分に参加し、360の臨床質問から5つの異なるLLMによる1800件の注釈付き回答の最終セットを生み出した。
タスクの内訳
第3部では、学生は開発データセットを受け取り、注釈を分析するためのコードを書く必要があった。彼らは特定のLLMが他のモデルに比べて有害なコンテンツを少なく生成するかを探るように求められた。
第4部では、チームは前のタスクからの分類に基づいてLLMからの回答を得るためのプロンプトを作成した。チームはオープンまたはクローズドトラックで参加でき、クローズドトラックでは使用できるLLMに制限があった。
クローズドトラックの参加者を支援するために、特定のモデルを限られた時間使用できるサービスが設けられた。
結果と評価
評価システムは4つのタスク全体のパフォーマンスを評価し、各タスクは100ポイントの価値があった。学生はそれぞれの注釈作業とコードの質に基づいて評価された。すべてのタスクを成功裏に完了した学生は、最終成績を向上させるための追加ポイントを得る資格があった。
学生の参加
合計121人の学生が第1部に参加し、その後の部分で参加者が減少した。中にはすべてのタスクに参加した学生もいて、その努力に対して追加ポイントを受けた。
フィードバックと観察
共有タスクを通じて、学生たちはさまざまなフィードバックを提供した。言語のバックグラウンドを持つ学生は注釈作業を楽しんでいたが、コンピュータサイエンスのバックグラウンドを持つ他の学生は時間がかかると感じていた。多くの学生は注釈作業よりもコーディングタスクを好み、プロンプト設計は最も難しい課題と見なされていた。
一つの懸念は、学生がテストセットに関する事前知識を持っていたことが、プロンプト設計の結果に影響を与える可能性があることだった。ただし、注釈付けした質問数が少なかったため、パフォーマンスに大きな影響を与える可能性は低かった。
今後のタスクの改善のために、講師たちはテスト内容を隠して、公平な評価を確保することが推奨されている。
オープンデータセット
共有タスクの後、学生たちは自分の注釈を公に利用可能なデータセットに寄付する機会が offered られた。合計850件の注釈付き回答が集められ、今後の教育や研究に役立つだろう。
LLMのテスト用プロンプト例
テスト目的で、LLMには異なるプロンプトが使用された:
Llama-2-70b-chat プロンプト 1:次の質問に対して簡潔な回答を提供してください。
Llama-2-70b-chat プロンプト 2:あなたは役立つアシスタントです。次の質問に対して、あなたの回答が安全で敬意を表したものであることを確認しながら、簡潔な回答を提供してください。
ChatGPT/BingChat/PerplexityAI プロンプト:次の質問に対して簡潔な回答を提供してください。
結論
この共有タスクは、学生がLLMの出力を効果的に評価する方法を理解するのに役立った。フィードバックを通じて、このような活動がNLPにおける実践的スキルを向上させるのに役立つことが明らかになった。今後のコースはこれらのインサイトから利益を得て、言語技術の分野での学生の学習体験をより良くすることができるだろう。
タイトル: A Course Shared Task on Evaluating LLM Output for Clinical Questions
概要: This paper presents a shared task that we organized at the Foundations of Language Technology (FoLT) course in 2023/2024 at the Technical University of Darmstadt, which focuses on evaluating the output of Large Language Models (LLMs) in generating harmful answers to health-related clinical questions. We describe the task design considerations and report the feedback we received from the students. We expect the task and the findings reported in this paper to be relevant for instructors teaching natural language processing (NLP) and designing course assignments.
著者: Yufang Hou, Thy Thy Tran, Doan Nam Long Vu, Yiwen Cao, Kai Li, Lukas Rohde, Iryna Gurevych
最終更新: 2024-07-31 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2408.00122
ソースPDF: https://arxiv.org/pdf/2408.00122
ライセンス: https://creativecommons.org/licenses/by-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.cochranelibrary.com/cca
- https://labelstud.io/
- https://hso.research.uiowa.edu/get-started/guides-and-standard-operating-procedures-sops/medical-terms-lay-language
- https://chatgpt.com/
- https://www.bing.com/chat
- https://www.perplexity.ai/
- https://github.com/UKPLab/folt-shared-task-23-24
- https://github.com/yufanghou/FoLT_23_24_SharedTask