法律調査におけるAIの精度を評価する
この研究は、法律実務におけるAIツールの信頼性を評価してるよ。
― 1 分で読む
法律業界では、人工知能(AI)技術の利用が急速に増えてきたんだ。これらのツールは、判例の検索や文書のドラフトなど、さまざまな法律業務を助けてくれる。でも、これらのツールの背後にある大規模言語モデル(LLM)が時々誤った情報を作り出すことがあるから、深刻な法律問題では問題なんだ。最近、いくつかの法律リサーチ会社が、自社のツールは「ハルシネーションフリー」と主張していて、つまり誤った情報を生成しないってことなんだけど、これらのシステムのプライベートな性質のせいで、その主張を体系的に検証するのが難しいんだ。この記事では、AI駆動の法律リサーチツールの初めての実証評価を報告していて、これらの提供者の主張がしばしば誇張されていることが明らかになったよ。
結果
私たちの研究では、LexisNexisとThomson ReutersのAIツールは、一般的なチャットボットよりもハルシネーションが少ないけど、それでも17%から33%の頻度で誤情報を生成していることがわかったんだ。ツールごとに応答性と正確性に大きな違いがあることも分かった。私たちの研究からは、4つの主な貢献があるよ。
- これらの独自の法律AIツールのパフォーマンスを評価したのは私たちが初めて。
- これらのシステムの弱点を特定するための包括的なデータセットを作成した。
- ハルシネーションによる応答と正確な法律情報を明確に区別する方法を提供した。
- 法律専門家がAI出力の検証における責任を理解するのを助ける証拠を提供した。
法律AIの課題
法律業務におけるAIツールの増加は、機会と課題の両方をもたらしているんだ。AIは効率向上の可能性を提供するけど、誤ったデータを生成するリスクも伴うんだ。この懸念は単なる理論じゃなくて、実際に多くの弁護士がAIが作り出した架空の裁判例を引用して厳しい影響を受けているよ。最高裁判所のジョン・ロバーツ長官は、AIの法律利用における効果的な障壁としてハルシネーションを指摘したんだ。
それにもかかわらず、LexisNexisやThomson Reutersのような会社は、ハルシネーションのリスクを減少または排除したと主張している。彼らは、洗練された手法が法律リサーチ業務の不正確さを防ぐ助けになると言っているけど、その主張には強固な証拠が欠けている。ハルシネーションという用語も曖昧で、どのリスクが本当に対処されているかが混乱を招いている。私たちの研究は、特定のツールを評価し、GPT-4のような広く使用されているチャットボットと比較することでこのギャップを埋めることを目指しているんだ。
データ収集と方法
私たちは、LexisNexisのLexis+ AI、Thomson ReutersのAsk Practical Law AI、WestlawのAIアシストリサーチを、GPT-4と一緒に評価するために、法律に関するクエリのデータセットを手動で作成した。それぞれのクエリは、法律AIシステムのさまざまな側面を探るために慎重に作成されたよ。私たちのクエリは4つのカテゴリーに分かれている:
- 一般的な法律の質問。
- 特定の管轄区域の質問。
- 虚偽の前提に関する質問。
- 事実のリコールに関する質問。
それぞれのクエリは、成功するか失敗するか事前に知識がなくても、実際の法律リサーチシナリオを反映しているんだ。
結果の概要
私たちの発見は、AIツールからの応答の半分未満が正確であることを示している。Lexis+ AIは65%の正確さで正答しているけど、Westlaw AIアシストリサーチは42%、Ask Practical Law AIは19%しかない。さらに、WestlawのAIは他のツールに比べてほぼ2倍のハルシネーションを生み出したよ。このデータは、すべてのタイプのクエリにわたってハルシネーションが発生することを示している。
ハルシネーションの問題
AIシステムは、明らかに誤った出力を生成することがあって、それをハルシネーションという。これらの問題は、弁護士がAIシステムからの誤った情報を引用して制裁を受けた数々の高プロファイルなケースで明らかになっている。以前の研究では、一般的なLLMが58%から82%の頻度でハルシネートすることがわかったんだ。興味深いことに、法律AIツールの焦点を当てた研究では、一般的なチャットボットよりもパフォーマンスが良いけど、それでも誤った情報を1/3の頻度で生成することが分かったよ。
ハルシネーションの原因
私たちの分析では、法律AIシステムにおけるハルシネーションの普及のいくつかの理由が明らかになった:
不十分なドキュメント検索:法律システムは、法律の質問が複雑で曖昧なため、最も関連性のあるドキュメントを見つけることができないことがある。
不適切な権威:時々、AIツールは関連性のないドキュメントを引用したり、覆されたものを引用したりして、不正確な結論に至ることがある。
おべっか:AIツールは、ユーザーの仮定に同意することがあり、それが誤った出力につながることがある。
初歩的な推論エラー:AIシステムは基本的な推論タスクにも苦しむことがあり、法律テキストの不正確な解釈を引き起こすことがある。
法律専門家への影響
法律専門家は、AIツールの使用に伴う倫理的義務を理解しておく必要があるんだ。弁護士は、特にクライアントの機密性やデータの正確性に関するリスクを理解しておくべきだよ。AI出力の正確性を徹底的に確認する必要があるんだ。
私たちの研究は、AIツールが法律リサーチを大いに向上させる可能性があるけれど、注意が必要だってことを強調している。弁護士は、AIによって生成された情報のすべてを手動で検証するか、十分な検証なしにAI出力を信頼するかというジレンマに直面していて、これは倫理的な落とし穴につながる可能性があるんだ。
法律AI開発者への影響
AIツールの開発者は、製品のマーケティングとその能力の正直な評価の間で微妙な線を歩まなきゃいけない。彼らは、自社のツールの信頼性や正確性について根拠のない主張を避けるべきだ。これらの製品がますます精査される中で、自社のAIの能力を誤って表現した企業には法的な影響があるかもしれないよ。
結論
AIが法律業務を変革する可能性についての期待はあるけれど、私たちの研究は、ハルシネーションがAI駆動の法律リサーチツールにとって依然として重大な課題であることを示しているんだ。法律AI企業は、信頼性の主張を支持するために明確な実証データを提供する必要がある。今のところ、ユーザーはこれらのツールを慎重に扱い、倫理的義務を守るために厳格な検証基準を維持すべきなんだ。
クエリ構造
AI駆動の法律リサーチツールのパフォーマンスを効果的に評価するために、実際の法律業務を代表する多様なクエリセットを設計したんだ。私たちのクエリは、弁護士が直面することの多い問題の範囲をカバーしていて、ツールの能力を現実的に評価するのを助けるよ。
クエリ実行
私たちは、選択したAIツールで各クエリを手動で実行した。各応答は、正確性、関連性、ハルシネーションの有無を分析した。このプロセスは、それぞれのツールのパフォーマンスを包括的に理解するためのものだったんだ。
評価者間の信頼性
また、評価者間の信頼性を確認することで、評価の質を確保した。私たちは、高いレベルの合意を見つけたので、評価基準が明確で効果的だったことを示しているんだ。
総合評価
要するに、私たちの研究は、AIツールが法律技術の重要な進歩を代表するけれど、まだ完璧からはほど遠いことを明らかにしている。ユーザーは、AIが生成した情報に頼る際には警戒を怠らず、法律業務の正 Integrityを保つためにツールのパフォーマンスを継続的に評価する必要があるよ。
タイトル: Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools
概要: Legal practice has witnessed a sharp rise in products incorporating artificial intelligence (AI). Such tools are designed to assist with a wide range of core legal tasks, from search and summarization of caselaw to document drafting. But the large language models used in these tools are prone to "hallucinate," or make up false information, making their use risky in high-stakes domains. Recently, certain legal research providers have touted methods such as retrieval-augmented generation (RAG) as "eliminating" (Casetext, 2023) or "avoid[ing]" hallucinations (Thomson Reuters, 2023), or guaranteeing "hallucination-free" legal citations (LexisNexis, 2023). Because of the closed nature of these systems, systematically assessing these claims is challenging. In this article, we design and report on the first preregistered empirical evaluation of AI-driven legal research tools. We demonstrate that the providers' claims are overstated. While hallucinations are reduced relative to general-purpose chatbots (GPT-4), we find that the AI research tools made by LexisNexis (Lexis+ AI) and Thomson Reuters (Westlaw AI-Assisted Research and Ask Practical Law AI) each hallucinate between 17% and 33% of the time. We also document substantial differences between systems in responsiveness and accuracy. Our article makes four key contributions. It is the first to assess and report the performance of RAG-based proprietary legal AI tools. Second, it introduces a comprehensive, preregistered dataset for identifying and understanding vulnerabilities in these systems. Third, it proposes a clear typology for differentiating between hallucinations and accurate legal responses. Last, it provides evidence to inform the responsibilities of legal professionals in supervising and verifying AI outputs, which remains a central open question for the responsible integration of AI into law.
著者: Varun Magesh, Faiz Surani, Matthew Dahl, Mirac Suzgun, Christopher D. Manning, Daniel E. Ho
最終更新: 2024-05-30 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2405.20362
ソースPDF: https://arxiv.org/pdf/2405.20362
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。