Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# コンピュータと社会

司法の透明性におけるAIの役割

陪審員選定や立ち退きプロセスの透明性を向上させるAIの可能性を探る。

Ishana Shastri, Shomik Jain, Barbara Engelhardt, Ashia Wilson

― 1 分で読む


AIが法律の透明性に与えるAIが法律の透明性に与える影響任を向上させる。AIは陪審員選びや立ち退きプロセスでの責
目次

司法制度に透明性を持たせることは、人々を責任に問うために重要だよね。これには、監査人が偏見やミスの兆候を探すために、 messyな法的ケースファイルをたくさんチェックするハードワークが必要なことが多いんだ。例えば、有名なカーティス・フラワーズの事件の調査では、一チームのリポーターが、検察が人種的偏見を示す陪審員をどう選んだかに関する情報を集めるのに1年かかったんだ。大規模言語モデル(LLMs)は、このプロセスの一部を自動化することで、整理されていない文書から情報を集めるのを簡単にするかもしれない。このアーティクルでは、LLMsを使って刑事裁判での陪審員の選定と住宅の立ち退きケースの処理という二つの重要な法的プロセスに透明性をもたらす希望や課題について話すよ。

刑事法制度には根深い偏見があって、これが社会的不平等を悪化させることが多いんだ。これらの問題に関する証拠の多くは、特に注意すべきケースを詳しく調べるリポーターや研究者から来ている。刑事法制度全体で透明性を高める必要があるんだ。この透明性が常に違法行為を明らかにするわけではないけど、定期的な監査は不適切な行動を抑制することで基準の遵守を改善するのに役立つ。医療過誤の請求や職業倫理のための政府機関など、偏見を監視するためのさまざまな法的構造もすでに存在しているけど、こうした手段はバイアスのある行動を暴露する文書へのアクセスが難しいために、結果を課すのに苦労している。このアーティクルでは、AIシステムが現在の透明性の取り組みを自動化する大きな機会があると主張しているんだ。これによって、弁護士や研究者が監査をより迅速に実施し、不正を是正できるようになる。

データ駆動型の透明性の取り組みを自動化するには、たくさんの課題がある。まず第一に、法的文書は集中化が不足していてデジタルフォーマットが乏しいため、アクセスが難しい。多くの裁判所の事務員は、必要がなくなるまで印刷されたケースブックを保持しているんだ。一般の人々がこの情報にアクセスすることはできるけど、裁判所に行ってファイルを集めて手動でスキャンする必要があるんだ。他の問題は、法律制度で収集されるさまざまな種類やフォーマットのデータを処理するのが難しいことだ。ほとんどの州の裁判所は記録の保持を要求しているけど、ルールが州ごとに異なるから、不完全で一貫性のないデータになっちゃう。ある管轄内でも、裁判データは混沌としていてラベルが不十分なので、高いレベルのバリエーションを扱える技術を開発するのが大変なんだ。さらに、裁判文書を機械が読み取れるフォーマットにデジタル化するのはまだ複雑なタスクで、特に手書きのノートが含まれている文書もあるから余計に厄介だね。

透明性の推進の一つの重要な例は、アメリカン・パブリック・メディア(APM)のポッドキャスト「In The Dark」に関与しているジャーナリストによって実施された陪審員選定の監査から来ているよ。このチームは、1992年から2017年のミシシッピ州の第5巡回裁判所の裁判記録を分析するのに1年間を費やしたんだ。この情報を使って、さまざまな裁判での差別のパターンを発見し、最終的にはある男性の無罪と地区検事の辞職に繋がったんだ。7人のリポーターが裁判文書を分析用のデータセットに処理するのにほぼ1年かかったんだ。そこでは、各裁判所にスキャナーを持って訪れ、ドケットブックを調べ、関連するケースファイルを引き出す作業が必要だった。そして、彼らは数ヶ月をかけて、各裁判のケースファイルから陪審員選定に関するデータを抽出したんだ。ノースカロライナ州での同様の監査では、データへのアクセスと処理の難しさが、陪審員の選定プロセス全体の明確な見解を与えないことを示したんだ。

LLMsは、様々な文書から情報を抽出する能力に目を見張る可能性を示しているから、これらの透明性の取り組みを自動化し、スケールアップする可能性があるんだ。これらのモデルは、小説や電子健康記録、財務文書など、様々なタイプのテキストから情報を集めるのに効果的だって証明されている。最近では、LLMsを法的文書に適用する研究のフィールドが発展してきているよ。ただし、ほとんどの研究は、契約のレビューやケースの要約、法的推論タスクの処理など、弁護士が通常行うタスクの自動化に集中しているんだ。

このアーティクルは、LLMsを使って刑事裁判での陪審員の選定と住宅立ち退きケースの透明性を改善することについて語る最初の一つなんだ。特に、いくつかのポイントに焦点を当てているよ:

  1. LLMsが現在の透明性の取り組みで使用されている非構造的文書の抽出を自動化する方法を特定すること。
  2. これらのタスクに対するLLMのパフォーマンスを評価し、特定のスキルやエラーの微妙な源を含むさまざまな課題を浮き彫りにすること。
  3. 透明性と監査の自動化をより現実的にするために、法的および技術的な投資の必要性を強調すること。

関連研究

データ駆動型技術がアメリカの刑事法制度で成長してきたことはよく知られているよ。これらの技術は主に犯罪リスクの管理に焦点を当てていて、アルゴリズミックな公平性コミュニティの多くの作業は、これらのリスク管理ツールが正確さや公平性の概念に従うようにすることを試みてきたんだ。私たちの研究は、法律環境でAIシステムの使用を再考することを推奨する人々と一致しているよ。視点を変えることは、単に被告の欠点を測定するだけでなく、犯罪化につながるプロセスを理解し、法執行の支援から地域の安全の向上にシフトすること、リスクのある集団の監視から公務員の責任追及に移行することを含むんだ。

LLMsの使用による法の透明性や責任に関する研究はあまり多くないよ。いくつかの研究者は、LLMsが法的プロセスや情報をリソースの少ない人々にとってもっとアクセスしやすくするのに役立つかどうかを探っているんだ。例えば、彼らはアリゾナ州の立ち退きルールに関する情報を抽出し、法的なフォームやプロセスについてのガイドを提供するためにGPTを活用したチャットボットを作ったんだ。別の研究では、ブラジルの監査ケースを処理するためにGPT-4の能力を調査したんだ。私たちと同様の方法で、生のケース文書から始めて、提示された告発を明らかにしたり、ケースの法的有効性を判断したりしようとしたんだ。彼らは監査裁判所の処理をスピードアップすることを目指していたけど、私たちの目的は、解決された後の裁判ケースの透明性を高めることなんだ。私たちの研究は、ケースの決定の方法を明らかにするための透明性メカニズムを自動化するためのLLMsの新しいアプリケーションを提示するよ。

ケーススタディ

このセクションでは、偏見や搾取の歴史がある二つの重要な裁判プロセスについて説明するよ。それぞれの分野で透明性メカニズムがどのように多数の非構造的な裁判文書の手動検査に依存しているかを示して、LLMsがバイアスをチェックするのを手助けする機会を強調するんだ。

陪審員選定

陪審員選定は、刑事裁判において公正に正義が施行されることを保証するために重要なんだ。しかし、このプロセスは不透明だし、陪審員が選ばれる際に影響を与える暗黙の偏見があることが批判されているよ。陪審員選定の透明性を実現するためには、長い裁判のトランスクリプトや手書きの陪審員ストライクシートを分析する必要があり、LLMsがこれを処理するのを手助けできるかもしれないんだ。

アメリカでは、潜在的な陪審員を絞り込む方法、つまり「ベニレ」から最終リストへのプロセスが、裁判所や管轄によって若干異なるんだけど、基本的な手続きは「ヴォア・ダイール」と呼ばれるものを含むよ。最初に、潜在的な陪審員が州の有権者や運転免許登録リストからランダムに選ばれるんだ。これらの潜在的な陪審員は、裁判が考慮されるケースで公正で中立でいられるかどうかを判断するために、裁判官や弁護士からの一連の質問に答えるヴォア・ダイールプロセスを受けることになるんだ。弁護士は、陪審員として務めることに干渉するかもしれない健康上の問題や、犯罪司法制度とのつながり、ケースに関連するバイアスについて質問することがある。

ヴォア・ダイールは、偏見のある陪審員を排除することを目的としているけど、特定の陪審員を排除する理由についての疑問が残ることが多いんだ。刑事裁判では、検察も弁護側も陪審員を有効な理由で解雇することができるし、無効打撃(peremptory strike)を通じて解雇することもできるんだ。理由によるストライクには、陪審員を解雇するための法的根拠が必要なんだけど、例えば被告を知っていることが挙げられる。一方、無効打撃では、どちらの側も理由を示さずに特定の数の陪審員を解雇できるんだ。ただし、裁判所から特に質問された場合は理由を示さなければならない。

搾取的な慣行

無効打撃の仕組みは、偏見のある行動や陪審員の操作のための抜け道を作り出すんだ。1986年の画期的な判決、バトソン対ケンタッキー事件では、無効打撃が人種に基づいて潜在的な陪審員を排除するためだけに使用されることはできないとされたし、後にこの判決は性別や性的指向にも適用されるようになった。しかし、バトソンの挑戦を提起するのは反対党の責任で、排除された理由が人種や性別に中立である必要があるんだ。実際には、検察が「低い知能」などの曖昧な理由を示すと、裁判官はこれを「人種に中立的」と見なして、これらの挑戦を不成功に終わらせることが多いんだ。

陪審員選定における偏見が事件の結果にどれほど大きく影響するかの一例が、カーティス・フラワーズの裁判なんだ。2000年から2010年の間に、フラワーズは殺人で6回の裁判を受け、そのうち4回は有罪判決と死刑につながったんだ。最高裁判所はその後、有罪判決を覆し、検察官が陪審員から黒人を排除しようとする執拗な努力を強調したんだ。このケースは唯一ではなくて、1949年にはグローブランド・フォーが同様の不正義に直面したんだ。二人の無実の黒人男性が、偏見を持って組織された全白人の陪審員によって死刑を宣告されたんだ。最近では、死刑事件で女性やユダヤ人の陪審員に対する無効打撃が不法な偏見の懸念を引き起こし、高名な有罪判決の覆りにつながる可能性があるよ。

透明性メカニズム

ジャーナリストや社会科学者による監査が、陪審員選定における偏見を示す特定の検察官や管轄区域を明らかにするのに役立ってきたんだ。APMのミシシッピ州での刑事裁判に関する監査では、検察官が黒人の陪審員を白人の陪審員より4.5倍高い割合で排除していることや、女性の陪審員が男性の陪審員より1.2倍高い割合で排除されていることがわかったんだ。これらの発見は、カーティス・フラワーズのケースでの地区検事の辞職を促すきっかけとなり、彼は30年間の検察官としての業務中に幅広い人種差別の非難を受けたんだ。APMの監査には、305件のミシシッピ州の刑事裁判のデータセットを編纂するのにフルタイムの7人のチームが必要だったんで、そこから陪審員が選ばれたかどうか、年齢や性別の情報が示されていたんだ。

APMのミシシッピ州刑事裁判のデータセットでは、陪審員選定情報は(1)陪審員選定プロセスからの裁判記録、または(2)陪審員排除シートから取得されているんだ。裁判記録には、各陪審員に対するヴォア・ダイールの質問と最終的な陪審員の名簿が含まれているけど、これが選ばれた陪審員やその性別を示すことができる。陪審員排除シートには、召喚されたすべての陪審員がリストされ、誰が排除されたか、選ばれたかがマークされているんだ。時々、検察官が陪審員を排除した理由を、レースと性別とともに説明する手書きのノートを含めることもあるけど、通常は白人/黒人のために「W」または「B」、男性/女性のために「M」または「F」とコード化されている。ミシシッピ州以外の他の州では、潜在的な陪審員からの人口統計情報が要求されていて、これはケースファイルに含まれているかもしれないし、そうでないかもしれないんだ。

必要な情報が存在すると仮定すると、LLMsは裁判記録、陪審員排除シート、その他のケースファイルから次のタスクを自動化することができるかもしれない:

  1. 陪審員の人口統計情報:名前、人種、性別、職業歴。
  2. 裁判情報:郡、裁判官、弁護士、犯罪の詳細、裁判の評決。
  3. ヴォア・ダイールの回答:陪審員が偏見を持っていると信じる理由(例えば、法執行機関とのつながり、コミュニケーションの難しさ)。
  4. 選ばれた陪審員:各潜在的陪審員が選ばれたか、予備陪審員として任命されたか、理由によって排除されたかの情報。
  5. バトソンの挑戦:挑戦が行われたか、その挑戦を行ったのがどちらの側だったか(検察か弁護か)という情報。

住宅の立ち退き

立ち退きは、家主が借り手を賃貸物件から追い出すことが発生するプロセスなんだ。これは、特に低所得または少数民族コミュニティにおいて搾取を引き起こすことがあるよ。立ち退きプロセスの透明性を確保するためには、しばしば整理されていない手書きのノートが含まれるさまざまな裁判文書を分析することが不可欠なんだ。

立ち退きプロセスは、アメリカの都市や管轄区域によって異なるんだ。多くの立ち退きは、借り手が時間通りに家賃を支払わないことによって発生するよ。他の理由には、契約違反、物件の損害、騒音問題などが含まれるかもしれない。一部の都市では、借り手の不正行為を主張せずに家主が物件の所有権を回復しようとするノーフォルト立ち退きが許可されていることもあるんだ。

立ち退き手続きを開始するために、家主は通常、借り手に書面で通知を提供しなければならないんだ。これは「退去通知(Notice to Quit: NTQ)」と呼ばれることが多いよ。借り手が立ち退き要求に応じない場合、訴訟が提起されることになるんだ。この場合、借り手には「招状と訴状(Summons and Complaint: S C)」を通じて裁判所に出廷する通知が出される。借り手が裁判所に出廷しないと、家主は立ち退きの判断を受けることが多いんだ。借り手が裁判所に出廷した場合、いくつかの結果が考えられる:ケースが却下される、裁判に進む、または和解することもある。和解であっても、特定の条件を満たさない場合に立ち退き日を合意することが含まれることがあるよ。裁判所が執行命令を発出した場合、法執行機関が借り手を強制的に排除できるんだ。

搾取的な慣行

研究によると、立ち退きプロセスにはさまざまな不正義があることがわかっているよ。立ち退きされると将来の住居機会に悪影響を及ぼすことがあるんだ。家主はその権力や借り手の法的知識の欠如を利用して、立ち退きプロセスの間に借り手を脅すことがあるんだ。立ち退き事件は通常民事裁判で起こるけど、借り手には法的代理を受ける権利がないから、出廷しない人が多いんだ。出廷しない場合、家主が出廷した時にデフォルト判決を受けることになることが多いんだ。多くの主要なアメリカの都市では、約70%の借り手が立ち退き事件の裁判に出席しないんだ。

立ち退きの中には、ノーフォルト立ち退きや報復立ち退きが含まれることもあるよ。ノーフォルト立ち退きは、長年にわたって低所得の借り手を排除する要因となってきたんだ。報復立ち退きは、借り手が悪条件について不満を言った場合に、家主が立ち退きを脅かす場合に発生することがあるんだ。極端な場合、家主は借り手が自発的に退去することを促すために耐えられない条件を作り出すこともあるんだ。これらの慣行は通常違法だけど、借り手がこれを証明する負担を負うことになり、法律的なサポートがない人には圧倒的に感じられるんだ。

透明性メカニズム

プリンストン大学の立ち退きラボなどの法学者たちは、徹底したデータ収集と分析を通じて搾取的な慣行を明らかにしようとしてきたよ。立ち退きラボは、公的な立ち退き記録と国勢調査データ、独自の記録を組み合わせて、アメリカの50州全体をカバーする最大のデータセットを作成したんだ。彼らの研究は、子供を持つ借り手や低所得者、または劣悪な地域に住んでいる人々が立ち退きのリスクが高いことを示しているよ。例えば、ミルウォーキーの近隣の研究では、黒人の借り手が白人の借り手に比べて裁判を通じて立ち退きされる可能性が2倍高いこと、女性の借り手が男性の借り手よりも2倍以上立ち退かれる傾向があることがわかったんだ。

立ち退きの透明性を高めるための別の学術的な取り組みでは、マサチューセッツ州の立ち退きケースのデータセットを作成するために、裁判所で立ち退きファイルに物理的にアクセスすることが含まれていたんだ。このプロセスには、分析のためにケースをスキャンし、コーディングする作業が含まれていたよ。この取り組みは、立ち退き事件が提起された後に借り手が強制的に排除されるまでのさまざまな法的手続きを明らかにすることができるんだ。彼らは、立ち退きケースが提起された後、借り手が一定の条件を満たさない場合の移転合意のような和解条件が、行政データセットにしばしば見落とされる共通の道筋であることを発見したよ。

文書抽出タスク

この研究では、LLMsがこれらの研究者が行った広範な作業の一部を自動化できるかどうかを探る情報抽出タスクをまとめているんだ。収集されたファイルには、NTQ、S C、借り手の反訴、裁判所の命令、その他の法的文書が含まれていたよ。これらのファイルはしばしば時系列で整理されておらず、以下の目的のために一緒に処理される必要があったんだ:

  1. ケースの背景:住所、家主の種類、法的代理の有無、立ち退きケースの種類(未払い、不正行為、またはノーフォルト)。
  2. ケースの手続きの歴史:借り手がデフォルトしたかどうか、執行が発行されたかどうか、ケースの決定。
  3. 和解条件:和解条件の特定、立ち退き合意や民事保護観察など。

LLM実験の方法

最初に、LLMsがケーススタディで文書抽出タスクを実行するために必要な能力について説明するよ。次に、私たちが実験でテストした特定のタスクについて説明するんだ。これらのタスクは完全な自動化パイプラインを表すものではなく、LLMsが実行可能でさまざまなスキルをカバーするタスクを探るんだ。

LLMの能力

LLMsは、抽出タスクを完了するためにいくつかの能力が必要だよ。文書に関連情報がどのように提示されているかや、クエリの形式によって、以下のスキルが抽出に必要だ。

  1. 統合能力:関連情報は文書の複数のセクションや異なる文書の中に見つかることがある。
  2. 推論:クエリに答えるには、文書内の情報に基づいて論理的推論を行う必要がある。
  3. 非カテゴリカルクエリ:クエリは特定のカテゴリ出力を要求しないことがある。
  4. 手書き情報:文書に手書きの情報が含まれていることがある。

私たちは、LLMsが外部の光学式文字認識(OCR)ツール、例えばAdobe AcrobatやMicrosoft Azureなどで事前に処理された文書から機械可読なテキストを受け取る状況をテストしたんだ。したがって、LLMsが手書きの情報を処理する能力は、印刷されたテキストと混在している場合や、文書の余白に配置されていることによって完全には変換されなかったテキストを理解する能力に関連しているんだ。

陪審員選定の実験

私たちは、ミシシッピ州のAPMデータセットを使用して、裁判文書からの情報抽出を自動化できるかどうかを重点的に調査したんだ。裁判文書は陪審員選定を超えて透明性を高める可能性があるからだよ。そして、陪審員排除シートを処理するときにOCRの制限が見られたんだ。私たちは、陪審員リストと最終陪審員名簿を持つ50のケースに分析を制限したんだ。この選択によって、匿名化されたAPMデータセットと陪審員排除シートの情報を相互参照し、最終陪審員名簿が含まれるトランスクリプトの部分に対する微調整の効果をテストすることができたんだ。私たちは、15ページから400ページまでのスキャンされたトランスクリプトからテキストを抽出するためにAdobe AcrobatのOCR技術を利用したよ。

私たちは、APMによって実行されたタスクに関連する以下のタスクをテストしたんだ:

  1. 選ばれた陪審員の名前:陪審員として選ばれた陪審員の名前(予備を含む)。
  2. バトソンの挑戦:挑戦が行われたか、どちらの側(検察または弁護)が行ったか。
  3. 陪審員の性別構成:選ばれた陪審員の男性と女性の数(予備を含む)。

最終陪審員の名前を抽出するのは、常にヴォア・ダイールのトランスクリプトの最後に存在するので、統合や推論は不要なんだ。でも、バトソン挑戦が事件中に行われたかどうかを判断するには、成功した挑戦を示すものを認識して、どの側が提起したかを追跡するためにLLMが推論する必要があるんだ。陪審員の性別構成を判断するには、選ばれた陪審員を特定し、性別(名前や代名詞に基づいて)を見つけ、最終的な男女のカウントを提供するために、統合と推論が両方必要なんだ。

立ち退きの実験

マサチューセッツ州の立ち退き事件のデータを使用して、LLMsが手動で行われた情報抽出タスクの一部を自動化できるかどうかを探ったよ。私たちは、NTQ、S C、およびその他の裁判文書が含まれる2013年のケースファイルに分析を制限したんだ。このケースは105件あったんだ。各ケースの要約版は、無関係な通知やメールを削除することで作成されたよ。私たちは、テキストと手書きの部分を抽出するためにMicrosoftのAzure OCRモデルを使用したんだ。これはAdobe Acrobatよりもこれらの文書に対して良好なパフォーマンスを示したんだ。

私たちは、私たちの研究チームによってコーディングされた変数に関連する以下のタスクをテストしたんだ:

  1. 郵便番号:物件の郵便番号。
  2. 家主の種類:「法人」「個人」「ボストン住宅局」(公営住宅ケースのため)のいずれか。
  3. 家主の代理状況:家主に法的代理人がいるかどうか、家主を代表する弁護士のサインによって判定。
  4. 和解の種類:移転合意や民事保護観察などの和解条件の種類。
  5. 最終ケースの決定:自発的な却下、デフォルト判決、または和解合意などの結果の種類。
  6. 執行発行:裁判所が立ち退きの執行を発行したかどうか(そして後に却下されていないか)。

郵便番号の特定は、S Cの住所セクションに常に存在するため、統合や推論は不要なんだ。家主の種類は推論が必要だけど、家主の名前や法人名がS Cに記載されていることがあるんだ。家主に法的代理がいるかどうかを判断するには、S C上の署名の名前を推測することが必要なんだけど、これが手書きであることもあるんだ。和解の種類を確認するには、特定の日時に引越しを要求する条項が存在するかどうかによって推測する必要があるんだ。最終的なケースの決定や執行が発行されたかどうかを理解するには、ケースブック内の複数のファイルを確認する必要があるよ。例えば、「却下通知」があればケースの却下を示すことができるけど、時にはこの情報が手書きのドケットシートにしか存在しないことがあるんだ。

モデルと実験の詳細

私たちの主要な分析では、OpenAIのGPT-4 Turboモデルを利用したよ。法的分野での強力なパフォーマンスを示している先行研究を考慮して、微調整実験にはGPT-3.5 Turboを選択したんだ。主要な分析はゼロショットプロンプト構造に依存していたよ。すべての裁判ケースとタスクについて、ランダムなバリエーションを考慮して5回のトライアルを実施したんだ。

結果と課題

LLMsのパフォーマンスは、両分野のタスクによって異なり、特に複雑な能力が必要なタスクでは精度が一般的に低下することがわかったんだ。最も良いパフォーマンスは、陪審員の名前や郵便番号のように、統合や推論が不要なタスクで、より複雑なタスクではパフォーマンスが大幅に低下したよ。以下は、一般的なエラーを要約し、LLMsが直面する課題に関するタスク特有のニュアンスを強調するよ。

陪審員選定タスクの結果

  • 選ばれた陪審員の名前(81.6%の精度):一般的なエラーには、モデルがいくつかの名前を見逃す不完全な再現や、名前ではなく陪審員のIDを提供するような出力形式の誤解が含まれていたよ。

  • バトソンの挑戦(23.2%の精度):法的推論が低い精度に寄与している可能性が高いよ。LLMは、どれが成功したバトソン挑戦を示すのかを認識し、どちらの側がそれを提起したかを識別する必要があるんだ。この文脈で二発のプロンプトを試してみたよ。

  • 陪審員の性別構成(3.6%の精度):このタスクは、陪審員選定タスクの中で最も低い精度を示したんだ。私たちは、この課題はトランスクリプト全体を通じて要求される統合によるもので、他のタスクと比較して難しいと考えているよ。また、LLMsがスピーチの不明瞭さのためにいくつかの詳細を誤解したことが、間違った性別数の結果につながったんだ。

立ち退きタスクの結果

  • 郵便番号(95.8%の精度)、家主の種類(89.7%の精度)、代理状況(71.0%の精度):タスクがより複雑な能力を必要とするほど精度が低下するんだ。でも、立ち退きのタスクでは、統合や推論がパフォーマンスを大きく低下させないこともわかったよ。郵便番号のタスクでは、エラーは主にプロンプトの誤解によって発生したんだ。

  • ケースの決定(94.9%の精度):LLMsはケースの決定を特定するのに良好なパフォーマンスを示したんだ。関連ファイルが通常、最終結果を明示することが多いからだよ。ほとんどのエラーは、特定のファイルが欠けている場合から生じたんだ。

  • 和解の種類(88.6%の精度):このタスクは統合を必要としないけど、ケースの決定よりやや低いパフォーマンスを示したよ。

  • 執行が発行されたか(68.8%の精度):このタスクは立ち退きタスクの中で最も低い精度を示したよ。これはさまざまな困難のためだ。執行が発行されたかどうかを理解するには、ケース結果に基づくさまざまな経路についての豊富な文脈が必要なんだ。例えば、「却下通知」はケースが却下されることを示すかもしれないけど、時にはこの情報が手書きのドケットシートにしか記録されていないことがあるんだ。

陪審員選定パフォーマンスの改善

私たちは、少数ショットプロンプト、文書の長さ短縮、微調整が陪審員選定タスクのパフォーマンスを向上させる可能性のある方法かどうかを探ったよ。具体的には、すべてのタスクに対して二発プロンプトを中心にしたけど、後者の二つの方法は、特に性別構成タスクの低パフォーマンスに焦点を当てたんだ。

少数ショットプロンプト

すべてのタスクにおいて、ゼロショットプロンプトと比較して二発プロンプトで精度が向上することがわかったよ。特にバトソンの挑戦タスクでは、23.2%から76.8%に大きなパフォーマンスの向上が見られたんだ。さらに、性別構成タスクの絶対誤差は4.09から2.61に減少して、法的文脈を少数ショットプロンプトを通じて注入する可能性が示されたんだ。

文書の長さ

フルの裁判トランスクリプトを使用する代わりに、最終的な陪審員名簿の抜粋のみを使用して性別構成タスクをテストしたんだ。この方法では、精度が3.6%から23.8%に向上したし、絶対誤差も2.17に改善されたんだ。このパフォーマンスは、二発プロンプトでの精度に類似しているんだけど、文書の長さを短縮することは性別推測やスピーチの不明瞭さの理解に関連する問題を解決するわけではないんだ。

微調整

性別構成タスクで微調整がモデルパフォーマンスを向上させるかどうかを評価したよ。私たちは、最終陪審員名簿の抜粋で60-40のトレイン-テスト分割で微調整したんだ。微調整は、精度を23.8%から34.0%に上昇させたけど、絶対誤差は1.40に減少して、65.8%の誤差削減を示したんだ。

下流影響テスト

研究者やジャーナリストが尋ねる可能性のある広範な質問に対するモデルのパフォーマンスを測定するのは重要なんだ。陪審員の性別構成タスクを例に取ると、モデルの出力が監査の全体的な結果にどれだけ影響を与えるかを評価したんだ。APMの分析の一つの目的は、陪審員の人口統計的選定比率や、これが特定の郡や検察官によってどう異なるかを探ることだったんだ。

モデル出力を使ってこれらの質問に答えると、監査の潜在的な発見に大きな影響を与えることがわかったよ。ただし、微調整されたモデルは影響が小さかったんだ。実際の女性対男性の比率は1.36だったんだけど、ベースラインのLLM出力ではこの比率が1.22に低下し、微調整モデルでは1.29になったんだ。どちらのモデルも、50件のケースのうち11件で主要な性別を不正確に反転させることになったよ。郡や検察官のランキングも大きな変化を示したから、モデルのエラーが重要なトレンドを隠す可能性があることを示唆しているんだ。

結論

私たちの結果は、裁判プロセスの透明性を高めるための自動化された情報抽出タスクにLLMsを使用する際の課題を強調しているんだ。司法の透明性を改善するためには、技術的および法的な投資が必要だよ。

技術的投資

  • ベンチマークの再調整:私たちの研究からの結果は、LLMの能力が実際の影響があるタスクに直接適用できない可能性を示しているよ。例えば、陪審員の性別構成に関するクエリは、モデルが簡略化されたデータセットで通常優れたパフォーマンスを示す数え上げの複雑さを露呈しているんだ。これは、LLMのベンチマークを影響力のある実世界のタスクに合わせる必要があることを示唆しているよ。

  • トレーニングデータセット:非構造的な法的データにターゲットを絞ったトレーニングを行うことで、司法透明性の取り組みにおいてパフォーマンスが大きく向上する可能性があるよ。裁判文書に関する初期の悪いパフォーマンスは、トレーニングデータに含まれていなかったことから生じている可能性があるんだ。

  • 前処理能力:手書きの情報を処理することは、法的文書から情報を抽出する上で重要な障壁だよ。OCRツールは、裁判ファイルに見られるさまざまな手書きの種類に苦労することがあるんだ。関連する文書のセクションを特定する方法を含む、追加の前処理がパフォーマンスを向上させる可能性があるんだ。

法的投資

  • データのアクセシビリティと標準化:裁判所は、標準化された文書フォーマットを強制し、記録を集中デジタルデータベースに移行することができるよ。LLMsの可能性を完全に実現するためには、デジタル化が不可欠なんだ。また、LLMsを微調整するには、透明性に関連するさまざまなタスクでラベル付きの例を収集する必要があるよ。

  • モデルのエンドユーザー:現在、透明性タスクを実行しているジャーナリストや法的専門家は、ワークフローにLLMsを組み込むことに躊躇しているかもしれないんだ。いくつかの簡単なタスクは自動化できるかもしれないけど、より複雑なタスクは依然として人間の監視が必要かもしれないよ。

  • 不均等な影響を軽減する:法律透明性のためにLLMsを展開することに関しては、潜在的な不均等な影響に注意が必要だよ。裕福な管轄区域では通常より良好に管理された記録があるから、LLMsがよく整理されたデータでより良いパフォーマンスを示せば、資源の少ないコミュニティは同じ利益を享受できないかもしれないんだ。

結論として、技術的及び法的コミュニティは共に、司法制度の透明性を向上させるための解決策に投資する必要があるよ。法的データを統一し、実際のシナリオに基づいてモデルをトレーニングし、潜在的なエラーに注意を払うことで、LLMsは法的分野の透明性に大きく寄与することができるんだ。

オリジナルソース

タイトル: Automating Transparency Mechanisms in the Judicial System Using LLMs: Opportunities and Challenges

概要: Bringing more transparency to the judicial system for the purposes of increasing accountability often demands extensive effort from auditors who must meticulously sift through numerous disorganized legal case files to detect patterns of bias and errors. For example, the high-profile investigation into the Curtis Flowers case took seven reporters a full year to assemble evidence about the prosecutor's history of selecting racially biased juries. LLMs have the potential to automate and scale these transparency pipelines, especially given their demonstrated capabilities to extract information from unstructured documents. We discuss the opportunities and challenges of using LLMs to provide transparency in two important court processes: jury selection in criminal trials and housing eviction cases.

著者: Ishana Shastri, Shomik Jain, Barbara Engelhardt, Ashia Wilson

最終更新: 2024-08-15 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2408.08477

ソースPDF: https://arxiv.org/pdf/2408.08477

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事

コンピュータビジョンとパターン認識トランスフォーマーのグループクエリアテンションの進展

新しい方法がGrouped Query Attentionを強化して、画像分類タスクの効率を向上させてるよ。

Zohaib Khan, Muhammad Khaquan, Omer Tafveez

― 1 分で読む