Evaluando la Racionalidad de los Modelos de Lenguaje
Este artículo examina si los modelos de lenguaje tienen creencias y siguen normas de coherencia.
― 8 minilectura
Tabla de contenidos
- ¿Qué Son las Normas de Coherencia?
- ¿Tienen Creencias los Modelos de Lenguaje?
- Estados Internos y Naturaleza Representacional
- Modelos Fundamentados y Sus Capacidades
- Normas de Racionalidad y Modelos de Lenguaje
- Credibilidad y Su Rol
- El Reto de Medir la Racionalidad
- Direcciones Futuras y Conclusión
- Fuente original
El tema de si los modelos de lenguaje, un tipo de inteligencia artificial (IA), son racionales es importante para entender cómo se comportan. La racionalidad a menudo significa hacer las cosas de una manera que tenga sentido o sea lógica. Para los humanos, pensamos en la racionalidad como una forma de explicar por qué tomamos ciertas decisiones o mantenemos ciertas creencias. Pero es menos claro cómo se aplica esto a los sistemas de IA, especialmente a los modelos de lenguaje.
Este artículo mira específicamente a los modelos de lenguaje y una parte de la racionalidad llamada normas de coherencia y Revisión de Creencias. Las normas de coherencia se refieren a cómo las creencias deberían relacionarse entre sí de manera lógica. En términos más simples, se centran en si diferentes creencias pueden coexistir sin contradicciones. Por ejemplo, si alguien cree que París está en Francia pero también cree que París no está en Francia, esas creencias son contradictorias y, por lo tanto, incoherentes.
¿Qué Son las Normas de Coherencia?
Las normas de coherencia son estándares que ayudan a determinar si un conjunto de creencias tiene sentido en conjunto. Se pueden dividir en dos tipos: normas de coherencia lógica, que se centran en si las creencias se contradicen entre sí, y normas de coherencia relacionadas con la fuerza de las creencias, a menudo llamadas Credibilidad.
La racionalidad incluye reglas básicas que requieren que las personas tengan creencias coherentes. Si las creencias se contradicen entre sí, eso a menudo se ve como un fracaso de la racionalidad. Por ejemplo, si uno cree que lloverá con alta probabilidad mientras también cree que no lloverá en absoluto, eso no tiene sentido.
Los modelos de lenguaje operan de manera diferente a como piensan los humanos. Son sistemas complejos entrenados en grandes cantidades de datos de texto. Cuando miramos sus Estados Internos, tenemos que preguntar si tienen creencias similares a las nuestras y si esas creencias siguen las normas de coherencia.
¿Tienen Creencias los Modelos de Lenguaje?
Para determinar si los modelos de lenguaje poseen creencias, es útil empezar examinando cómo procesan la información. Los modelos de lenguaje pueden producir respuestas correctas a muchas preguntas sobre el mundo, lo que podría sugerir que "saben" cosas. Pero tener información no significa necesariamente que sostengan creencias.
Las creencias verdaderas a menudo están conectadas a tener un conocimiento preciso sobre el mundo. Sin embargo, los modelos de lenguaje tienen estructuras internas que simplemente llevan información y no necesariamente sostienen creencias de la manera en que lo hacen los humanos. Por ejemplo, un diccionario contiene información que la gente puede usar para aprender, pero el diccionario en sí no "sabe" nada.
El reto es si los modelos de lenguaje pueden realmente sostener creencias que cumplan con el estándar de ser verdaderas. Aquí hay dos preocupaciones principales. Una es si los estados internos de los modelos de lenguaje pueden representar realmente creencias. La segunda es si, incluso si pueden representar creencias, esas creencias cumplen con los requisitos para ser creencias reales, especialmente el requisito de verdad.
Estados Internos y Naturaleza Representacional
Los estados internos de los modelos de lenguaje están destinados a predecir y generar texto basado en datos aprendidos. Se centran estrictamente en la probabilidad de la próxima palabra o token según el entrenamiento que han recibido. Debido a que su rol principal es modelar texto, sus estados internos pueden no estar alineados con creencias en el sentido humano.
Por ejemplo, si un modelo de lenguaje está entrenado en una mezcla de texto factual y ficticio, aprende patrones en esos datos pero puede que no tenga una creencia que corresponda a la verdad. Esto plantea la pregunta: ¿los estados internos apuntan a la verdad de la misma manera que las creencias humanas? Dado que se supone que las creencias deben ser verdaderas, la falta de una conexión directa a la verdad en los internos de los modelos de lenguaje sugiere que probablemente no tienen creencias genuinas.
Sin embargo, algunos modelos de lenguaje se ajustan para mejorar su precisión, como aquellos entrenados con retroalimentación de humanos. Este ajuste puede crear una situación donde el objetivo del modelo es producir información veraz, lo que puede permitir que los estados internos operen de manera similar a las creencias.
Modelos Fundamentados y Sus Capacidades
Otra noción interesante es la de modelos fundamentados, donde un modelo puede interactuar con el mundo a través de entradas sensoriales, como imágenes o sonidos. Estos modelos pueden desarrollar creencias interpretando datos sensoriales de manera similar a como los humanos perciben el mundo. Un modelo de lenguaje fundamentado puede conectar sus estados internos a la realidad, lo que lo hace más propenso a formar creencias que se asemejen a las de los humanos.
Esto contrasta con los modelos de lenguaje estándar que dependen únicamente del texto. Tales modelos carecen del tipo de fundamentación que proviene de interacciones del mundo real, lo que ayuda a los humanos a formar creencias basadas en sus experiencias. Por lo tanto, mientras que algunos modelos de lenguaje pueden desarrollar creencias, otros sin esa fundamentación probablemente no lo hagan.
Normas de Racionalidad y Modelos de Lenguaje
Una vez que establecemos si los modelos de lenguaje pueden tener creencias, el siguiente paso es considerar si estas creencias siguen las normas de coherencia. Para ser considerados racionales, los modelos de lenguaje deben tener creencias que sean consistentes entre sí. Por ejemplo, si un modelo de lenguaje ha sido ajustado para la verdad, no debería tener creencias contradictorias.
Sin embargo, muchos modelos de lenguaje son entrenados con datos desordenados e incoherentes. Esto plantea la pregunta de si deberían siquiera ser requeridos para tener creencias coherentes, ya que sus datos de entrenamiento no cumplen con ese estándar. Si las normas de coherencia se aplican a los humanos porque perciben un mundo lógico, se vuelve incierto si esas normas también deberían aplicarse a las máquinas que aprenden de datos defectuosos.
Credibilidad y Su Rol
El concepto de credibilidad se relaciona con la fuerza de las creencias. Para que una creencia sea creíble, tiene que estar respaldada, tal vez por evidencia o probabilidad. Sin embargo, traducir las probabilidades que utilizan los modelos de lenguaje en algo parecido a la credibilidad es complicado. ¿Cómo determinamos qué tan fuertemente un modelo cree en una proposición dada?
Una propuesta es considerar qué tan probable asigna el modelo el siguiente token como una respuesta afirmativa a una pregunta. Si podemos medir eso, podemos desarrollar una forma de aproximar la credibilidad para los modelos de lenguaje. Esta sigue siendo un área de investigación en curso, y aunque crear un vínculo directo entre las probabilidades de los tokens y las creencias puede aclarar las cosas, el estado actual de los modelos de lenguaje complica este proceso.
El Reto de Medir la Racionalidad
Determinar si los modelos de lenguaje son racionales, irracionales o incluso aracionales es complicado. Aunque podríamos encontrar que un modelo muestra incoherencia en sus creencias, puede ser difícil decir si eso significa que es irracional o simplemente está haciendo lo que fue programado para hacer basado en sus datos de entrenamiento.
Probar la racionalidad de los modelos de lenguaje requiere un ambiente más controlado de lo que actualmente tenemos. Ajustar un modelo con el objetivo de mejorar la veracidad ayuda a clarificar si el modelo cumple con las normas de coherencia. Sin embargo, el entrenamiento original en datos incoherentes afecta sus creencias actuales, complicando nuestra capacidad para evaluar con precisión su racionalidad.
Direcciones Futuras y Conclusión
En resumen, la cuestión de si los modelos de lenguaje son racionales depende de múltiples factores. Primero, necesitamos entender si poseen creencias que cumplan con los requisitos de verdad y coherencia. En segundo lugar, debemos considerar hasta qué punto las normas de coherencia se aplican a estos modelos dado su entrenamiento.
Aunque los modelos de lenguaje estándar pueden no encarnar típicamente características racionales debido a su entrenamiento en datos incoherentes, aquellos ajustados para tareas específicas pueden adherirse más estrechamente a las normas de coherencia. En última instancia, estos hallazgos sugieren que las preocupaciones de racionalidad sí se aplican a los modelos de lenguaje, aunque de manera diferente a como lo hacen para los humanos. El trabajo futuro puede mejorar nuestra comprensión de los modelos de lenguaje y cómo medimos su racionalidad, ayudando a moldear la forma en que interactuamos y desarrollamos sistemas de IA.
Título: Are language models rational? The case of coherence norms and belief revision
Resumen: Do norms of rationality apply to machine learning models, in particular language models? In this paper we investigate this question by focusing on a special subset of rational norms: coherence norms. We consider both logical coherence norms as well as coherence norms tied to the strength of belief. To make sense of the latter, we introduce the Minimal Assent Connection (MAC) and propose a new account of credence, which captures the strength of belief in language models. This proposal uniformly assigns strength of belief simply on the basis of model internal next token probabilities. We argue that rational norms tied to coherence do apply to some language models, but not to others. This issue is significant since rationality is closely tied to predicting and explaining behavior, and thus it is connected to considerations about AI safety and alignment, as well as understanding model behavior more generally.
Autores: Thomas Hofweber, Peter Hase, Elias Stengel-Eskin, Mohit Bansal
Última actualización: 2024-08-10 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2406.03442
Fuente PDF: https://arxiv.org/pdf/2406.03442
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.