Rechtliche Risiken von Sprachmodellen aufgedeckt
Eine Studie zeigt hohe Fehlerquoten bei rechtlichen Antworten von Sprachmodellen.
― 6 min Lesedauer
Inhaltsverzeichnis
- Wichtige Beiträge
- Der Einfluss von KI auf die Rechtsbranche
- Halluzinationsmuster über LLMs hinweg
- Arten von Halluzinationen
- Untersuchung von Halluzinationen durch rechtliche Forschungsaufgaben
- Aufgaben mit niedriger Komplexität
- Aufgaben mit moderater Komplexität
- Aufgaben mit hoher Komplexität
- Experimentdesign und Datensammlung
- Referenzbasierte Abfragen
- Referenzfreie Abfragen
- Ergebnisse zu Halluzinationsraten
- Aufgabenkomplexität und Halluzinationsraten
- Gerichtsebene und Halluzinationsraten
- Gerichtsbarkeit und Halluzinationsraten
- Fallbedeutung und Halluzinationsraten
- Jahr der Entscheidung und Halluzinationsraten
- Variabilität zwischen LLMs
- Kontrafaktische Voreingenommenheit
- Modellkalibrierung
- Fazit
- Originalquelle
- Referenz Links
Grosse Sprachmodelle (LLMs) haben das Potenzial, die Art und Weise, wie rechtliche Arbeit erledigt wird, zu verändern, aber manchmal produzieren sie falsche Informationen, die als rechtliche Halluzinationen bekannt sind. Diese Forschung untersucht, wie oft diese Halluzinationen auftreten, wenn LLMs spezifische rechtliche Fragen beantworten, und bietet einen Rahmen, um sie zu verstehen.
Wichtige Beiträge
Typologie der rechtlichen Halluzinationen: Ein Klassifikationssystem für verschiedene Arten von Halluzinationen, um zukünftige Forschung zu leiten.
Häufigkeit der Halluzinationen: Halluzinationen treten häufig auf, zwischen 69% und 88% der Fälle, basierend auf Anfragen zu Fällen vor Bundesgerichten von Modellen wie ChatGPT 3.5 und Llama 2.
Versagen, Benutzerannahmen zu korrigieren: LLMs korrigieren oft keine Missverständnisse von Benutzern, wenn sie Fragen beantworten, die auf falschen Prämissen basieren.
Mangel an Selbstbewusstsein: LLMs erkennen möglicherweise nicht, wenn sie halluzinierte Informationen bereitstellen.
Diese Ergebnisse deuten darauf hin, dass man vorsichtig sein sollte, LLMs für rechtliche Aufgaben zu nutzen. Anwälte und andere, insbesondere solche ohne juristische Ausbildung, sollten sich des Potenzials für falsche Informationen bewusst sein.
Der Einfluss von KI auf die Rechtsbranche
KI verändert das Rechtsfeld erheblich. LLMs haben bei verschiedenen rechtlichen Aufgaben stark abgeschnitten, aber Halluzinationen bleiben ein Hindernis für ihre breite Anwendung. LLMs können manchmal Antworten geben, die nicht mit bestehenden rechtlichen Regeln übereinstimmen, was in einem Bereich, in dem Genauigkeit entscheidend ist, ein ernstes Problem darstellt.
Halluzinationsmuster über LLMs hinweg
Durch verschiedene Tests haben wir festgestellt, dass Halluzinationen bei allen Modellen häufig sind. In den Medien sind anekdotische Beweise aufgetaucht, die Probleme hervorheben, wenn Anwälte auf falsche Informationen von LLMs angewiesen waren. Systematische Forschung zu diesem Problem fehlte jedoch bis jetzt.
Die Studie zielt darauf ab, diese Lücke zu schliessen und bietet wertvolle Einblicke, wie effektiv LLMs für rechtliche Arbeiten sein können. Durch die Betrachtung verschiedener LLMs können wir sehen, wie sie in Bezug auf die Generierung genauer rechtlicher Informationen unterschiedlich abschneiden.
Arten von Halluzinationen
Verschiedene Modelle können halluzinierte Informationen auf verschiedene Arten produzieren:
Geschlossene-Domain-Halluzination: Wenn ein Modell eine Antwort gibt, die nicht mit den im Input oder Prompt bereitgestellten Informationen übereinstimmt.
Offene-Domain-Halluzination: Dies geschieht, wenn ein Modell eine Antwort gibt, die nicht logisch aus dem Inhalt folgt, auf dem es trainiert wurde, insbesondere in rechtlichen Kontexten.
Faktische Halluzination: Diese Art ist besonders besorgniserregend in rechtlichen Zusammenhängen, da sie zu falschen rechtlichen Ratschlägen oder Entscheidungen führen kann.
Der Fokus dieser Studie liegt auf faktischen Halluzinationen, da diese in rechtlichen Kontexten am schädlichsten sind.
Untersuchung von Halluzinationen durch rechtliche Forschungsaufgaben
Um Halluzinationen zu bewerten, haben wir eine Reihe von Fragen erstellt, die die Fähigkeit eines LLMs testen, genaue rechtliche Informationen bereitzustellen. Diese Fragen wurden nach Komplexität gruppiert:
Aufgaben mit niedriger Komplexität
Die einfachsten Aufgaben beinhalten zu fragen, ob ein bestimmter Fall existiert oder zu identifizieren, welches Gericht eine Entscheidung zu einem Fall getroffen hat. Hier erwarten wir, dass LLMs gut abschneiden.
Aufgaben mit moderater Komplexität
Diese Fragen erfordern Kenntnisse über tatsächliche rechtliche Meinungen und wie sie bestimmte Fälle behandeln, wie zum Beispiel zu identifizieren, ob ein Berufungsurteil bestätigt oder aufgehoben wurde.
Aufgaben mit hoher Komplexität
Die herausforderndsten Fragen beinhalten das Verständnis komplexer rechtlicher Fragen, wie den sachlichen Hintergrund oder die zentrale Entscheidung eines Falls. Diese Aufgaben erfordern höherwertiges rechtliches Denken.
Experimentdesign und Datensammlung
Um Halluzinationsraten zu profilieren, sammelten wir Daten aus Bundesgerichtsverfahren auf verschiedenen Ebenen und in verschiedenen Gerichtsbarkeiten. Durch die sorgfältige Konstruktion unserer Testdaten wollten wir eine umfassende Bewertung der LLM-Leistung erreichen.
Referenzbasierte Abfragen
Mithilfe bekannter juristischer Metadaten konnten wir die LLM-Antworten direkt mit verifizierten Daten vergleichen. Dieser Ansatz ermöglichte es uns, festzustellen, wie oft die Modelle halluzinierte Informationen produzierten.
Referenzfreie Abfragen
In Situationen, in denen eine direkte Verifizierung nicht möglich war, entwickelten wir eine Methode, um Halluzinationen anhand von Inkonsistenzen in den Antworten des Modells zu erkennen. Durch die Analyse von Widersprüchen in den Antworten desselben Modells konnten wir die Halluzinationsrate schätzen.
Ergebnisse zu Halluzinationsraten
Wir fanden heraus, dass die Halluzinationsraten je nach Aufgabenkomplexität, Gerichtsebene, Gerichtsbarkeit, Fallbedeutung, Jahr der Entscheidung und dem spezifischen verwendeten LLM variieren.
Aufgabenkomplexität und Halluzinationsraten
Halluzinationen waren bei komplexen Aufgaben häufiger, was darauf hindeutet, dass LLMs bei nuancierten rechtlichen Anfragen Schwierigkeiten haben. Während sie bei einfachen Existenzanfragen am besten abschnitten, sank ihre Genauigkeit erheblich bei herausfordernderen Fragen.
Gerichtsebene und Halluzinationsraten
LLMs zeigten eine bessere Fähigkeit, Fragen auf höheren Ebenen der Gerichtsbarkeit (wie dem Obersten Gerichtshof) zu beantworten im Vergleich zu niedrigeren Gerichten. Das deutet darauf hin, dass sie zuverlässigere Informationen zu bekannten Fällen haben.
Gerichtsbarkeit und Halluzinationsraten
Innerhalb der Gerichte beobachteten wir Leistungsunterschiede basierend auf Gerichtsbarkeit. Einige Gerichte, wie der Second und Ninth Circuit, zeigten niedrigere Halluzinationsraten, während andere höhere Fehlerraten hatten.
Fallbedeutung und Halluzinationsraten
Bedeutsame Fälle, wie sie durch ihre Zitierhäufigkeit und Relevanz angezeigt werden, führten zu niedrigeren Halluzinationsraten in den LLM-Antworten. Diese Erkenntnis hebt die Neigung der Modelle hervor, bei weithin anerkannten rechtlichen Präzedenzfällen genauer zu sein.
Jahr der Entscheidung und Halluzinationsraten
Halluzinationen wurden sowohl bei neuen als auch bei älteren Fällen häufig festgestellt, was darauf hindeutet, dass LLMs möglicherweise die Entwicklung rechtlicher Prinzipien im Laufe der Zeit nicht genau erfassen.
Variabilität zwischen LLMs
Verschiedene LLMs zeigten unterschiedliche Halluzinationsraten. Insgesamt schnitt GPT 3.5 am besten ab, gefolgt von PaLM 2 und Llama 2.
Kontrafaktische Voreingenommenheit
Ein weiteres Anliegen ist, dass LLMs fehlerhafte Prämissen akzeptieren könnten, wenn sie Anfragen beantworten. Diese Voreingenommenheit kann zu falschen Schlussfolgerungen basierend auf fehlerhaften Benutzereingaben führen.
Modellkalibrierung
Wir haben auch untersucht, wie gut LLMs ihr eigenes Vertrauen in ihre Antworten einschätzen. Idealerweise sollte ein Modell bei genauen Antworten zuversichtlicher und bei halluzinierten weniger zuversichtlich sein. Allerdings fanden wir heraus, dass viele LLMs dazu tendieren, ihr Vertrauen zu überschätzen, was Benutzer dazu führen könnte, fehlerhafte Informationen zu vertrauen.
Fazit
Obwohl LLMs das Potenzial haben, die juristische Praxis zu verändern, stellen ihre aktuellen Einschränkungen erhebliche Risiken dar, insbesondere für Personen ohne juristische Expertise. Häufige Halluzinationen können Benutzer in die Irre führen, wodurch es entscheidend ist, Informationen zu überprüfen, wenn man diese Modelle für die rechtliche Forschung nutzt.
Zusammenfassend zeigen LLMs hohe Raten von Halluzinationen bei rechtlichen Aufgaben, was rote Fahnen für ihre Zuverlässigkeit und Nützlichkeit in realen rechtlichen Situationen aufwirft. Weitere Arbeiten sind erforderlich, um diese Herausforderungen anzugehen und sicherzustellen, dass LLMs den Zugang zur Gerechtigkeit unterstützen und nicht behindern können.
Titel: Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models
Zusammenfassung: Do large language models (LLMs) know the law? These models are increasingly being used to augment legal practice, education, and research, yet their revolutionary potential is threatened by the presence of hallucinations -- textual output that is not consistent with legal facts. We present the first systematic evidence of these hallucinations, documenting LLMs' varying performance across jurisdictions, courts, time periods, and cases. Our work makes four key contributions. First, we develop a typology of legal hallucinations, providing a conceptual framework for future research in this area. Second, we find that legal hallucinations are alarmingly prevalent, occurring between 58% of the time with ChatGPT 4 and 88% with Llama 2, when these models are asked specific, verifiable questions about random federal court cases. Third, we illustrate that LLMs often fail to correct a user's incorrect legal assumptions in a contra-factual question setup. Fourth, we provide evidence that LLMs cannot always predict, or do not always know, when they are producing legal hallucinations. Taken together, our findings caution against the rapid and unsupervised integration of popular LLMs into legal tasks. Even experienced lawyers must remain wary of legal hallucinations, and the risks are highest for those who stand to benefit from LLMs the most -- pro se litigants or those without access to traditional legal resources.
Autoren: Matthew Dahl, Varun Magesh, Mirac Suzgun, Daniel E. Ho
Letzte Aktualisierung: 2024-06-21 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2401.01301
Quell-PDF: https://arxiv.org/pdf/2401.01301
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.