HRチャットボット開発:協力的アプローチ
専門家の意見と高度な検索手法を使ってHRチャットボットを作るプロジェクト。
― 1 分で読む
目次
大規模言語モデル(LLM)は、人事(HR)支援を含むいろんなタスクで役立つようになった。従業員の質問にうまく答えられるHRチャットボットを作るプロジェクトが始まった。このチャットボットは、ビジネスソフトウェアを専門とするSAP SEの専門家の協力によって開発された。
開発プロセス
チャットボットのパフォーマンスを向上させるために、「人間が関与する」アプローチが使われた。これは、専門家がデータ収集、チャットボットの応答の洗練、出力のレビューなど、プロジェクトのさまざまな段階で役割を果たしたことを意味する。目的は、チャットボットの正確性と有用性を高めることだった。
チャットボットは、Retrieval Augmented Generation(RAG)という手法を使っている。このアプローチは、不正確または誤解を招く情報を減らすことで、より正確な回答を提供するのに役立つ。チームは、チャットボットの情報取得方法と応答の生成方法を改善するために、継続的に作業した。彼らの調査結果によると、GPT-4という特定のLLMは、HR関連の質問に対する応答で他のモデルよりも優れた性能を示した。また、彼らが使用した評価方法(G-EvalやPrometheusなど)は信頼性が高く、人間の評価にぴったり合った。
カスタマーサポートにおけるAI
最近、たくさんの企業が顧客サービス向上のためにAIを取り入れ始めた。LLMを活用したチャットボットを使うことで、企業は従業員の問い合わせに迅速に対応できるようになる。これにより、HR専門家はより複雑なタスクに集中でき、時間とお金を節約しつつ、従業員の満足度を高めることができる。
このプロジェクトでは、SAPのHRデータを使用してチャットボットの効果をテストした。専門家は、データ収集、プロンプトの改善、チャットボットの応答の評価に貢献し、開発サイクルをサポートした。
データソース
HRチャットボットのデータセットは、SAPの内部HRポリシーを集めて作成された。このデータセットには、質問、回答、質問の出所となるコンテキストが含まれていた。それぞれのエントリーには、従業員の所在地や雇用状況、関連する会社のポリシーなどの具体的な詳細が含まれていた。
データセットは2種類に分けられた:一般的な質問を含むFAQデータセットと、実際のユーザーからの問い合わせを含むユーザー発話データセット。両方のタイプは同じ構造に従っているが、質問の形成方法が異なる。チームは、新しい問い合わせに応じるための約50,000件のユニークな記事を含むナレッジベースをまとめた。
データセット収集
FAQデータセット
このデータセットには、約48,000の潜在的な質問とそれに対応する回答が含まれており、会社の内部ポリシーに基づいて専門家によって注意深くキュレーションされた。
ユーザー発話データセット
約41,000件の実際のユーザー質問で構成されるこのデータセットは、過去のチャットボットのやり取りを分析することによって作成された。プロセスを簡素化するために、ユーザーの問い合わせをFAQデータセットの質問と関連付けるためのシンプルなテキストマッチング手法が使用された。
データセット統計
分析によると、データセット内のほとんどの記事は4,000トークン未満で、チャットボットによる処理に適していた。最も一般的な質問は、給与明細や休暇日数に関連するトピックに集中していた。
チャットボットフレームワーク
チャットボットは、標準的なRAGフレームワークを使用して動作し、開発サイクルを通じて専門家の意見を取り入れた最適化が行われた。このプロセスにより、ユーザーが質問したときに関連するHR記事を効果的に取得できるようになった。
ユーザーが質問を送信すると、システムはナレッジベースから最も関連性の高い記事を検索する。リトリーバーモジュールは、その精度を向上させるために調整された。密なパッセージリトリーバー(DPR)が実装され、ユーザーの問い合わせに基づいて最も適切な記事を取得することに焦点を当てた。
情報取得技術
密なパッセージリトリーバー(DPR)
DPRは、ユーザーの質問と関連する記事との間のより良い整合性を達成するために特定のモデルを微調整して作られた。質問と回答のペアで訓練され、特定の問い合わせに対する最も適切な応答を学習できるようになった。訓練プロセスは、類似の質問と回答が密接に結びつくように埋め込みを生成することを目指した。
OpenAIベクトル検索
記事を取得するためのベクトル検索を行うために、OpenAIを基にした手法も使用され、埋め込みモデルを利用して記事の表現を作成した。この手法は、取得精度を向上させるためにさまざまな変換技術を用いられた。
ユーザー問い合わせ処理
ユーザーの問い合わせをチャットボットがどのように解釈するかを向上させるために、いくつかの技術が使用された。たとえば、システムはユーザーの質問をトピックに分解したり、関連する記事から仮想的なスニペットを生成したり、元の意図を維持しながら異なる方法で質問を再構成したりできた。
回答生成
回答を生成するために、チームはFAQとユーザー発話データセットで訓練されたLongT5モデルを微調整し、質問に効果的に答えられるようにした。また、OpenAIのモデル(ChatGPTやGPT-4など)を使って、取得した記事に基づいて回答を生成し、HRコンテキストに合ったプロンプトの作成に注意を払った。
パフォーマンス評価
評価指標
チャットボットのパフォーマンス評価には、さまざまな方法が用いられた。生成された回答と期待される応答との類似性を評価するために、BLEUやROUGEなどの参照ベースの指標が使用された。さらに、LLMを利用した新しい評価指標も探求され、チャットボットのパフォーマンスを把握するのに役立った。
人間評価
専門家は、チャットボットの応答を評価する上で重要な役割を果たし、品質管理の層を追加した。彼らは、明瞭さ、正確性、使いやすさなどの基準に基づいて回答を評価した。異なるスコアリングシステムが採用され、専門家の意見がチャットボットの効果を反映した。
結果と発見
リトリーバーのパフォーマンス
結果は、BERTベースのDPRがOpenAIベースのリトリーバーを大幅に上回ったことを示した。DPRは約22.24%のトップ1精度を達成したのに対し、OpenAIリトリーバーは約11.12%しか達成できなかった。この違いは、データセット内に類似の質問に対応する複数の記事が存在することによる課題を強調した。
NLG評価結果
異なるモデルの評価スコアは、GPT-4が高品質な応答生成において際立っていることを示した。伝統的な指標は、出力の創造的な性質のために低いスコアを示したが、GPT-4は言語スキルとコンテンツの関連性のバランスを示した。微調整されたLongT5モデルは、比較するとあまり良い結果を出さなかった。
相関評価
自動評価スコアと人間評価との相関が分析された。結果は、伝統的な指標がより創造的な出力に苦戦する傾向があることを示し、LLMの文脈においてより進んだ評価方法の必要性を強調した。
結論
このプロジェクトは、LLMが特に人間の専門知識で強化されることでHRのコンテキストで効果的に適用できることを示した。情報取得を最適化し、正確な応答を確保することには課題が残るが、開発プロセスにドメイン専門家を活用することで、チャットボットのパフォーマンスが向上することが示された。技術が進化し続ける中で、さらなる研究は評価指標の洗練や、チャットボットの実際のアプリケーションにおける能力の向上に焦点を当てることができる。
タイトル: Towards Optimizing and Evaluating a Retrieval Augmented QA Chatbot using LLMs with Human in the Loop
概要: Large Language Models have found application in various mundane and repetitive tasks including Human Resource (HR) support. We worked with the domain experts of SAP SE to develop an HR support chatbot as an efficient and effective tool for addressing employee inquiries. We inserted a human-in-the-loop in various parts of the development cycles such as dataset collection, prompt optimization, and evaluation of generated output. By enhancing the LLM-driven chatbot's response quality and exploring alternative retrieval methods, we have created an efficient, scalable, and flexible tool for HR professionals to address employee inquiries effectively. Our experiments and evaluation conclude that GPT-4 outperforms other models and can overcome inconsistencies in data through internal reasoning capabilities. Additionally, through expert analysis, we infer that reference-free evaluation metrics such as G-Eval and Prometheus demonstrate reliability closely aligned with that of human evaluation.
著者: Anum Afzal, Alexander Kowsik, Rajna Fani, Florian Matthes
最終更新: 2024-07-08 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2407.05925
ソースPDF: https://arxiv.org/pdf/2407.05925
ライセンス: https://creativecommons.org/publicdomain/zero/1.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://docs.llamaindex.ai/en/stable/optimizing/advanced_retrieval/query_transformations/
- https://docs.llamaindex.ai/en/latest/examples/retrievers/reciprocal_rerank_fusion/
- https://huggingface.co/google/long-t5-local-base
- https://haystack.deepset.ai/
- https://streamlit.io/