Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje# Inteligencia artificial# Informática y sociedad

Riesgos legales de los modelos de lenguaje revelados

Un estudio muestra altas tasas de errores en las respuestas legales de los modelos de lenguaje.

― 7 minilectura


LLMs en la práctica legalLLMs en la práctica legalriesgosrepresenta riesgos importantes.desinforman a los usuarios, lo queLos modelos legales a menudo
Tabla de contenidos

Los modelos de lenguaje grandes (LLMs) tienen la capacidad de cambiar cómo se hace el trabajo legal, pero a veces producen información incorrecta conocida como alucinaciones legales. Esta investigación analiza con qué frecuencia ocurren estas alucinaciones cuando los LLMs responden a preguntas legales específicas y ofrece un marco para entenderlas.

Contribuciones Clave

  1. Tipología de Alucinaciones Legales: Un sistema de clasificación para diferentes tipos de alucinaciones que guiará investigaciones futuras.

  2. Prevalencia de Alucinaciones: Las alucinaciones ocurren con frecuencia, entre un 69% y un 88% de las veces, según consultas sobre casos de tribunales federales de modelos como ChatGPT 3.5 y Llama 2.

  3. Falta de Corrección de Suposiciones del Usuario: Los LLMs a menudo no corrigen malentendidos de los usuarios cuando responden preguntas basadas en premisas falsas.

  4. Falta de Autoconciencia: Los LLMs pueden no reconocer cuando están proporcionando información alucinada.

Estos hallazgos sugieren tener cuidado al usar LLMs para tareas legales. Los abogados y otros, especialmente aquellos sin formación legal, deberían ser conscientes del potencial de información incorrecta.

El Impacto de la IA en la Industria Legal

La IA está cambiando significativamente el campo legal. Los LLMs han demostrado un buen rendimiento en varias tareas legales, pero las alucinaciones siguen siendo una barrera para su uso masivo. A veces, los LLMs pueden dar respuestas que no se alinean con las reglas legales existentes, lo cual es un problema serio en un campo donde la precisión es crucial.

Patrones de Alucinaciones en LLMs

A través de varias pruebas, encontramos que las alucinaciones son comunes en todos los modelos. Ha salido evidencia anecdótica en los medios, destacando problemas cuando los abogados se basaron en información incorrecta de los LLMs. Sin embargo, la investigación sistemática sobre este problema ha sido escasa hasta ahora.

El estudio busca llenar este vacío y ofrece valiosas ideas sobre cuán efectivos pueden ser los LLMs para el trabajo legal. Al observar varios LLMs, podemos ver cómo rinden diferente en términos de generar información legal precisa.

Tipos de Alucinaciones

Diferentes modelos pueden producir información alucinada de varias maneras:

  1. Alucinación de Dominio Cerrado: Cuando un modelo produce una respuesta que no coincide con la información proporcionada en la entrada o el aviso.

  2. Alucinación de Dominio Abierto: Ocurre cuando un modelo da una respuesta que no sigue lógicamente el contenido con el que fue entrenado, especialmente en contextos legales.

  3. Alucinación Factual: Este tipo es particularmente preocupante en entornos legales ya que puede llevar a consejos o decisiones legales incorrectas.

El enfoque de este estudio está en las alucinaciones factuales, ya que estas son las más perjudiciales en contextos legales.

Investigación de Alucinaciones a través de Tareas de Investigación Legal

Para evaluar las alucinaciones, creamos una serie de preguntas que prueban la capacidad de un LLM para proporcionar información legal precisa. Estas preguntas se agruparon por complejidad:

Tareas de Baja Complejidad

Las tareas más simples incluyen preguntar si existe un caso particular o identificar qué tribunal emitió un fallo sobre un caso. Aquí, esperamos que los LLMs rindan bien.

Tareas de Complejidad Moderada

Estas preguntas requieren conocimientos sobre opiniones legales reales y cómo resuelven casos particulares, como identificar si una apelación fue confirmada o revocada.

Tareas de Alta Complejidad

Las preguntas más desafiantes implican entender problemas legales intrincados, como el contexto fáctico o la decisión central de un caso. Estas tareas requieren razonamiento legal de orden superior.

Diseño del Experimento y Recolección de Datos

Para perfilar tasas de alucinación, recolectamos datos de casos de tribunales federales en diferentes niveles y jurisdicciones. Al construir cuidadosamente nuestros datos de prueba, buscamos una evaluación completa del rendimiento de los LLM.

Consultas Basadas en Referencias

Usando metadatos legales conocidos, pudimos evaluar directamente las respuestas de los LLM frente a datos verificados. Este enfoque nos permitió determinar con qué frecuencia los modelos producían información alucinada.

Consultas Sin Referencias

En situaciones donde la verificación directa no era posible, desarrollamos un método para detectar alucinaciones basado en inconsistencias en las respuestas del modelo. Al analizar contradicciones en las respuestas del mismo modelo, pudimos estimar la tasa de alucinaciones.

Hallazgos sobre Tasas de Alucinación

Encontramos que las tasas de alucinación varían según la complejidad de la tarea, el nivel del tribunal, la jurisdicción, la prominencia del caso, el año de la decisión y el LLM específico utilizado.

Complejidad de la Tarea y Tasas de Alucinación

Las alucinaciones fueron más comunes en tareas complejas, indicando que los LLMs tienen dificultades con consultas legales más matizadas. Si bien tuvieron un mejor rendimiento en preguntas simples sobre la existencia, su precisión cayó drásticamente en preguntas más desafiantes.

Nivel del Tribunal y Tasas de Alucinación

Los LLMs demostraron una mejor capacidad para responder preguntas en niveles más altos de la jerarquía judicial (como la Corte Suprema) en comparación con tribunales inferiores. Esto sugiere que tienen información más confiable sobre casos bien conocidos.

Jurisdicción y Tasas de Alucinación

Dentro de los tribunales, observamos diferencias en el rendimiento según la jurisdicción. Algunos tribunales, como los Circuitos Segundo y Noveno, mostraron tasas de alucinación más bajas, mientras que otros tuvieron tasas de error más altas.

Prominencia del Caso y Tasas de Alucinación

Los casos más significativos, indicados por su frecuencia de citación y relevancia, llevaron a tasas de alucinación más bajas en las respuestas de los LLM. Este hallazgo destaca la tendencia de los modelos a ser más precisos sobre precedentes legales ampliamente reconocidos.

Año de Decisión y Tasas de Alucinación

Se encontró que las alucinaciones eran comunes tanto en casos nuevos como en más antiguos, lo que indica que los LLMs pueden no capturar con precisión el desarrollo de principios legales a lo largo del tiempo.

Variabilidad entre LLMs

Diferentes LLMs mostraron tasas de alucinación variables. En general, GPT 3.5 rindió mejor, seguido de PaLM 2 y Llama 2.

Sesgo Contra-Factual

Otra preocupación es que los LLMs podrían aceptar premisas defectuosas al responder consultas. Este sesgo puede llevar a conclusiones incorrectas basadas en entradas defectuosas del usuario.

Calibración del modelo

También examinamos cuán bien los LLMs evalúan su propia confianza en sus respuestas. Idealmente, un modelo debería ser más confiado en respuestas precisas y menos en las alucinadas. Sin embargo, encontramos que muchos LLMs tienden a sobreestimar su certeza, llevando a los usuarios a confiar potencialmente en información errónea.

Conclusión

Aunque los LLMs tienen el potencial de cambiar la práctica legal, sus limitaciones actuales presentan riesgos significativos, especialmente para quienes no tienen experiencia legal. Las alucinaciones frecuentes pueden desinformar a los usuarios, haciendo crucial verificar la información al usar estos modelos para la investigación legal.

En resumen, los LLMs demuestran altas tasas de alucinaciones para tareas legales, lo que plantea señales de alerta sobre su fiabilidad y utilidad en entornos legales reales. Se necesita más trabajo para abordar estos desafíos, asegurando que los LLMs puedan apoyar en lugar de obstaculizar el acceso a la justicia.

Fuente original

Título: Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models

Resumen: Do large language models (LLMs) know the law? These models are increasingly being used to augment legal practice, education, and research, yet their revolutionary potential is threatened by the presence of hallucinations -- textual output that is not consistent with legal facts. We present the first systematic evidence of these hallucinations, documenting LLMs' varying performance across jurisdictions, courts, time periods, and cases. Our work makes four key contributions. First, we develop a typology of legal hallucinations, providing a conceptual framework for future research in this area. Second, we find that legal hallucinations are alarmingly prevalent, occurring between 58% of the time with ChatGPT 4 and 88% with Llama 2, when these models are asked specific, verifiable questions about random federal court cases. Third, we illustrate that LLMs often fail to correct a user's incorrect legal assumptions in a contra-factual question setup. Fourth, we provide evidence that LLMs cannot always predict, or do not always know, when they are producing legal hallucinations. Taken together, our findings caution against the rapid and unsupervised integration of popular LLMs into legal tasks. Even experienced lawyers must remain wary of legal hallucinations, and the risks are highest for those who stand to benefit from LLMs the most -- pro se litigants or those without access to traditional legal resources.

Autores: Matthew Dahl, Varun Magesh, Mirac Suzgun, Daniel E. Ho

Última actualización: 2024-06-21 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2401.01301

Fuente PDF: https://arxiv.org/pdf/2401.01301

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares