Un nuevo marco mejora cómo los agentes LLM aprenden a través de una guía de procesos detallada.
― 9 minilectura
Ciencia de vanguardia explicada de forma sencilla
Un nuevo marco mejora cómo los agentes LLM aprenden a través de una guía de procesos detallada.
― 9 minilectura
Presentamos RePrompt para mejorar el rendimiento del modelo de lenguaje a través de mensajes optimizados.
― 7 minilectura
Un nuevo estándar evalúa cómo los modelos de lenguaje manejan los cambios de texto.
― 7 minilectura
Los rasgos de los usuarios influyen en las respuestas de los modelos de lenguaje y en su seguridad.
― 8 minilectura
Un conjunto de herramientas para evaluar el rendimiento de modelos aumentados por recuperación en dominios específicos.
― 12 minilectura
Este estudio revela cómo los modelos de lenguaje cambian de comportamiento durante el entrenamiento.
― 8 minilectura
Este artículo examina formas de mejorar las habilidades de planificación en modelos de lenguaje grandes.
― 9 minilectura
DetectBench evalúa LLMs en su habilidad para detectar evidencia oculta en tareas de razonamiento.
― 6 minilectura
Examinando cómo la activación de neuronas mejora el razonamiento aritmético en modelos de lenguaje grandes.
― 11 minilectura
Un nuevo modelo genera poesía checa con mejor rima y ritmo.
― 7 minilectura
Un nuevo estándar evalúa las habilidades de razonamiento en modelos de lenguaje.
― 10 minilectura
Un estudio sobre cómo los modelos de lenguaje generan razones persuasivas para la evaluación de argumentos.
― 7 minilectura
Este estudio evalúa la honestidad de los LLM en tres áreas clave.
― 6 minilectura
Este artículo explora cómo los adversarios impactan el trabajo en equipo entre los modelos de lenguaje.
― 14 minilectura
Un estudio completo sobre el rendimiento de los modelos de lenguaje en 10 idiomas indios.
― 8 minilectura
Un nuevo método mejora la reparación de código para lenguajes de programación poco utilizados.
― 8 minilectura
Explorando cómo los sinks de atención afectan el rendimiento de los modelos de lenguaje y presentando una técnica de calibración.
― 7 minilectura
RankAdaptor optimiza el ajuste fino para modelos de IA podados, mejorando el rendimiento de manera eficiente.
― 9 minilectura
Un estudio sobre PlagBench y su papel en la detección de plagio en los resultados de LLM.
― 5 minilectura
Nuevo conjunto de datos evalúa la capacidad de los LLM para tareas complejas de razonamiento lógico.
― 9 minilectura
Esta investigación examina cómo las habilidades de razonamiento se transfieren entre idiomas en los modelos de lenguaje.
― 9 minilectura
Este artículo habla de cómo los modelos de IA aprenden de los errores a través de la autocorrección.
― 7 minilectura
Este estudio evalúa qué tan bien los LLMs razonan sobre las direcciones cardinales.
― 6 minilectura
Este estudio evalúa qué tan bien manejan los LLMs la toma de decisiones en un entorno de juego.
― 9 minilectura
Un estudio revela cómo las características del usuario afectan las respuestas y la precisión de los LLM.
― 9 minilectura
CharED combina modelos de lenguaje para mejorar el rendimiento sin vocabularios compartidos.
― 5 minilectura
RAGBench presenta un conjunto de datos completo para evaluar sistemas de Generación Aumentada de Recuperación.
― 8 minilectura
Explorando problemas de equidad en los modelos de lenguaje de IA y sus implicaciones.
― 10 minilectura
Presentamos una herramienta para mejorar la seguridad en las interacciones con modelos de lenguaje.
― 7 minilectura
Este artículo explora la detección de errores en las herramientas utilizadas por los modelos de lenguaje.
― 7 minilectura
Este artículo analiza estructuras repetitivas en textos generados por modelos de lenguaje.
― 9 minilectura
Un nuevo punto de referencia evalúa qué tan bien los modelos de lenguaje siguen múltiples instrucciones en secuencia.
― 5 minilectura
El conjunto de datos MalAlgoQA evalúa el razonamiento de los Modelos de Lenguaje Grande en escenarios contrafactuales.
― 7 minilectura
MathCAMPS ofrece una forma nueva de evaluar el razonamiento matemático en modelos de lenguaje.
― 11 minilectura
Este trabajo se centra en una mejor representación de números usando incrustaciones de dígitos para mejorar las predicciones.
― 9 minilectura
Explorando la efectividad de los LLMs en la toma de decisiones a través de escenarios de Dueling Bandits.
― 10 minilectura
Un nuevo estándar para evaluar modelos de lenguaje grandes en pruebas de hipótesis.
― 8 minilectura
CRAB mejora las pruebas para modelos de lenguaje en entornos del mundo real.
― 8 minilectura
Ajustando modelos de lenguaje grandes directamente en smartphones mientras protegemos los datos del usuario.
― 7 minilectura
Una visión general de la interpretabilidad mecanicista en modelos de lenguaje basados en transformadores.
― 9 minilectura