Arman Cohan

Este estudio evalúa cuándo las expansiones mejoran o perjudican el rendimiento en la recuperación de información.

2025-09-26T14:07:30+00:00 ― 4 minilectura

Este estudio examina las capacidades de los LLM para producir datos estructurados de manera precisa.

2025-09-26T00:57:30+00:00 ― 6 minilectura

Una mirada profunda a cómo los LLM convierten el lenguaje en código en múltiples tareas.

2025-09-20T06:58:18+00:00 ― 10 minilectura

Un nuevo modelo de lenguaje abierto para la investigación y la innovación en el procesamiento del lenguaje natural.

2025-09-12T09:14:24+00:00 ― 7 minilectura

Examinando vulnerabilidades y estrategias de seguridad para agentes científicos impulsados por LLM.

2025-09-10T13:23:42+00:00 ― 8 minilectura

Un estudio revela que hay una superposición de datos significativa que afecta las evaluaciones de modelos de lenguaje en la generación de código.

2025-09-01T02:16:12+00:00 ― 7 minilectura

Un nuevo conjunto de datos ayuda a los modelos de IR a adaptarse a instrucciones complejas para mejorar su rendimiento.

2025-08-26T18:49:00+00:00 ― 3 minilectura

La contaminación de datos afecta mucho la evaluación de los modelos de lenguaje grandes.

2025-07-26T10:12:36+00:00 ― 6 minilectura

Dos métodos mejoran la precisión de las evaluaciones de texto generadas por IA.

2025-05-29T22:25:03+00:00 ― 7 minilectura

Un nuevo estándar evalúa modelos para verificar reclamos financieros en documentos complejos.

2025-05-27T17:33:54+00:00 ― 8 minilectura

ChemSafetyBench prueba chatbots sobre seguridad química y conocimientos.

2025-05-06T00:39:52+00:00 ― 6 minilectura