Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache# Künstliche Intelligenz# Computer und Gesellschaft

Rechtliche Risiken von Sprachmodellen aufgedeckt

Eine Studie zeigt hohe Fehlerquoten bei rechtlichen Antworten von Sprachmodellen.

― 6 min Lesedauer


LLMs in der RechtspraxisLLMs in der RechtspraxisRisikenRisiken mit sich.oft falsch und bringen erheblicheRechtliche Modelle informieren Nutzer
Inhaltsverzeichnis

Grosse Sprachmodelle (LLMs) haben das Potenzial, die Art und Weise, wie rechtliche Arbeit erledigt wird, zu verändern, aber manchmal produzieren sie falsche Informationen, die als rechtliche Halluzinationen bekannt sind. Diese Forschung untersucht, wie oft diese Halluzinationen auftreten, wenn LLMs spezifische rechtliche Fragen beantworten, und bietet einen Rahmen, um sie zu verstehen.

Wichtige Beiträge

  1. Typologie der rechtlichen Halluzinationen: Ein Klassifikationssystem für verschiedene Arten von Halluzinationen, um zukünftige Forschung zu leiten.

  2. Häufigkeit der Halluzinationen: Halluzinationen treten häufig auf, zwischen 69% und 88% der Fälle, basierend auf Anfragen zu Fällen vor Bundesgerichten von Modellen wie ChatGPT 3.5 und Llama 2.

  3. Versagen, Benutzerannahmen zu korrigieren: LLMs korrigieren oft keine Missverständnisse von Benutzern, wenn sie Fragen beantworten, die auf falschen Prämissen basieren.

  4. Mangel an Selbstbewusstsein: LLMs erkennen möglicherweise nicht, wenn sie halluzinierte Informationen bereitstellen.

Diese Ergebnisse deuten darauf hin, dass man vorsichtig sein sollte, LLMs für rechtliche Aufgaben zu nutzen. Anwälte und andere, insbesondere solche ohne juristische Ausbildung, sollten sich des Potenzials für falsche Informationen bewusst sein.

Der Einfluss von KI auf die Rechtsbranche

KI verändert das Rechtsfeld erheblich. LLMs haben bei verschiedenen rechtlichen Aufgaben stark abgeschnitten, aber Halluzinationen bleiben ein Hindernis für ihre breite Anwendung. LLMs können manchmal Antworten geben, die nicht mit bestehenden rechtlichen Regeln übereinstimmen, was in einem Bereich, in dem Genauigkeit entscheidend ist, ein ernstes Problem darstellt.

Halluzinationsmuster über LLMs hinweg

Durch verschiedene Tests haben wir festgestellt, dass Halluzinationen bei allen Modellen häufig sind. In den Medien sind anekdotische Beweise aufgetaucht, die Probleme hervorheben, wenn Anwälte auf falsche Informationen von LLMs angewiesen waren. Systematische Forschung zu diesem Problem fehlte jedoch bis jetzt.

Die Studie zielt darauf ab, diese Lücke zu schliessen und bietet wertvolle Einblicke, wie effektiv LLMs für rechtliche Arbeiten sein können. Durch die Betrachtung verschiedener LLMs können wir sehen, wie sie in Bezug auf die Generierung genauer rechtlicher Informationen unterschiedlich abschneiden.

Arten von Halluzinationen

Verschiedene Modelle können halluzinierte Informationen auf verschiedene Arten produzieren:

  1. Geschlossene-Domain-Halluzination: Wenn ein Modell eine Antwort gibt, die nicht mit den im Input oder Prompt bereitgestellten Informationen übereinstimmt.

  2. Offene-Domain-Halluzination: Dies geschieht, wenn ein Modell eine Antwort gibt, die nicht logisch aus dem Inhalt folgt, auf dem es trainiert wurde, insbesondere in rechtlichen Kontexten.

  3. Faktische Halluzination: Diese Art ist besonders besorgniserregend in rechtlichen Zusammenhängen, da sie zu falschen rechtlichen Ratschlägen oder Entscheidungen führen kann.

Der Fokus dieser Studie liegt auf faktischen Halluzinationen, da diese in rechtlichen Kontexten am schädlichsten sind.

Untersuchung von Halluzinationen durch rechtliche Forschungsaufgaben

Um Halluzinationen zu bewerten, haben wir eine Reihe von Fragen erstellt, die die Fähigkeit eines LLMs testen, genaue rechtliche Informationen bereitzustellen. Diese Fragen wurden nach Komplexität gruppiert:

Aufgaben mit niedriger Komplexität

Die einfachsten Aufgaben beinhalten zu fragen, ob ein bestimmter Fall existiert oder zu identifizieren, welches Gericht eine Entscheidung zu einem Fall getroffen hat. Hier erwarten wir, dass LLMs gut abschneiden.

Aufgaben mit moderater Komplexität

Diese Fragen erfordern Kenntnisse über tatsächliche rechtliche Meinungen und wie sie bestimmte Fälle behandeln, wie zum Beispiel zu identifizieren, ob ein Berufungsurteil bestätigt oder aufgehoben wurde.

Aufgaben mit hoher Komplexität

Die herausforderndsten Fragen beinhalten das Verständnis komplexer rechtlicher Fragen, wie den sachlichen Hintergrund oder die zentrale Entscheidung eines Falls. Diese Aufgaben erfordern höherwertiges rechtliches Denken.

Experimentdesign und Datensammlung

Um Halluzinationsraten zu profilieren, sammelten wir Daten aus Bundesgerichtsverfahren auf verschiedenen Ebenen und in verschiedenen Gerichtsbarkeiten. Durch die sorgfältige Konstruktion unserer Testdaten wollten wir eine umfassende Bewertung der LLM-Leistung erreichen.

Referenzbasierte Abfragen

Mithilfe bekannter juristischer Metadaten konnten wir die LLM-Antworten direkt mit verifizierten Daten vergleichen. Dieser Ansatz ermöglichte es uns, festzustellen, wie oft die Modelle halluzinierte Informationen produzierten.

Referenzfreie Abfragen

In Situationen, in denen eine direkte Verifizierung nicht möglich war, entwickelten wir eine Methode, um Halluzinationen anhand von Inkonsistenzen in den Antworten des Modells zu erkennen. Durch die Analyse von Widersprüchen in den Antworten desselben Modells konnten wir die Halluzinationsrate schätzen.

Ergebnisse zu Halluzinationsraten

Wir fanden heraus, dass die Halluzinationsraten je nach Aufgabenkomplexität, Gerichtsebene, Gerichtsbarkeit, Fallbedeutung, Jahr der Entscheidung und dem spezifischen verwendeten LLM variieren.

Aufgabenkomplexität und Halluzinationsraten

Halluzinationen waren bei komplexen Aufgaben häufiger, was darauf hindeutet, dass LLMs bei nuancierten rechtlichen Anfragen Schwierigkeiten haben. Während sie bei einfachen Existenzanfragen am besten abschnitten, sank ihre Genauigkeit erheblich bei herausfordernderen Fragen.

Gerichtsebene und Halluzinationsraten

LLMs zeigten eine bessere Fähigkeit, Fragen auf höheren Ebenen der Gerichtsbarkeit (wie dem Obersten Gerichtshof) zu beantworten im Vergleich zu niedrigeren Gerichten. Das deutet darauf hin, dass sie zuverlässigere Informationen zu bekannten Fällen haben.

Gerichtsbarkeit und Halluzinationsraten

Innerhalb der Gerichte beobachteten wir Leistungsunterschiede basierend auf Gerichtsbarkeit. Einige Gerichte, wie der Second und Ninth Circuit, zeigten niedrigere Halluzinationsraten, während andere höhere Fehlerraten hatten.

Fallbedeutung und Halluzinationsraten

Bedeutsame Fälle, wie sie durch ihre Zitierhäufigkeit und Relevanz angezeigt werden, führten zu niedrigeren Halluzinationsraten in den LLM-Antworten. Diese Erkenntnis hebt die Neigung der Modelle hervor, bei weithin anerkannten rechtlichen Präzedenzfällen genauer zu sein.

Jahr der Entscheidung und Halluzinationsraten

Halluzinationen wurden sowohl bei neuen als auch bei älteren Fällen häufig festgestellt, was darauf hindeutet, dass LLMs möglicherweise die Entwicklung rechtlicher Prinzipien im Laufe der Zeit nicht genau erfassen.

Variabilität zwischen LLMs

Verschiedene LLMs zeigten unterschiedliche Halluzinationsraten. Insgesamt schnitt GPT 3.5 am besten ab, gefolgt von PaLM 2 und Llama 2.

Kontrafaktische Voreingenommenheit

Ein weiteres Anliegen ist, dass LLMs fehlerhafte Prämissen akzeptieren könnten, wenn sie Anfragen beantworten. Diese Voreingenommenheit kann zu falschen Schlussfolgerungen basierend auf fehlerhaften Benutzereingaben führen.

Modellkalibrierung

Wir haben auch untersucht, wie gut LLMs ihr eigenes Vertrauen in ihre Antworten einschätzen. Idealerweise sollte ein Modell bei genauen Antworten zuversichtlicher und bei halluzinierten weniger zuversichtlich sein. Allerdings fanden wir heraus, dass viele LLMs dazu tendieren, ihr Vertrauen zu überschätzen, was Benutzer dazu führen könnte, fehlerhafte Informationen zu vertrauen.

Fazit

Obwohl LLMs das Potenzial haben, die juristische Praxis zu verändern, stellen ihre aktuellen Einschränkungen erhebliche Risiken dar, insbesondere für Personen ohne juristische Expertise. Häufige Halluzinationen können Benutzer in die Irre führen, wodurch es entscheidend ist, Informationen zu überprüfen, wenn man diese Modelle für die rechtliche Forschung nutzt.

Zusammenfassend zeigen LLMs hohe Raten von Halluzinationen bei rechtlichen Aufgaben, was rote Fahnen für ihre Zuverlässigkeit und Nützlichkeit in realen rechtlichen Situationen aufwirft. Weitere Arbeiten sind erforderlich, um diese Herausforderungen anzugehen und sicherzustellen, dass LLMs den Zugang zur Gerechtigkeit unterstützen und nicht behindern können.

Originalquelle

Titel: Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models

Zusammenfassung: Do large language models (LLMs) know the law? These models are increasingly being used to augment legal practice, education, and research, yet their revolutionary potential is threatened by the presence of hallucinations -- textual output that is not consistent with legal facts. We present the first systematic evidence of these hallucinations, documenting LLMs' varying performance across jurisdictions, courts, time periods, and cases. Our work makes four key contributions. First, we develop a typology of legal hallucinations, providing a conceptual framework for future research in this area. Second, we find that legal hallucinations are alarmingly prevalent, occurring between 58% of the time with ChatGPT 4 and 88% with Llama 2, when these models are asked specific, verifiable questions about random federal court cases. Third, we illustrate that LLMs often fail to correct a user's incorrect legal assumptions in a contra-factual question setup. Fourth, we provide evidence that LLMs cannot always predict, or do not always know, when they are producing legal hallucinations. Taken together, our findings caution against the rapid and unsupervised integration of popular LLMs into legal tasks. Even experienced lawyers must remain wary of legal hallucinations, and the risks are highest for those who stand to benefit from LLMs the most -- pro se litigants or those without access to traditional legal resources.

Autoren: Matthew Dahl, Varun Magesh, Mirac Suzgun, Daniel E. Ho

Letzte Aktualisierung: 2024-06-21 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2401.01301

Quell-PDF: https://arxiv.org/pdf/2401.01301

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel