Últimos artículos para Evaluación

Computación y lenguaje Evaluando la IA médica: un nuevo estándar para los Med-MLLMs

Este benchmark evalúa el rendimiento de los modelos de lenguaje médico en el cuidado de la salud.

2025-09-07T01:47:12+00:00 ― 10 minilectura

Computación y lenguaje Evaluando el razonamiento en modelos de lenguaje grandes

Un nuevo marco evalúa cómo los LLM razonan para responder preguntas complejas.

2025-09-07T00:51:54+00:00 ― 5 minilectura

Computación y lenguaje Mejorando Modelos de Lenguaje con Cadena de Instrucciones

Este artículo habla sobre un método para mejorar los modelos de lenguaje usando instrucciones estructuradas.

2025-09-06T20:15:24+00:00 ― 6 minilectura

Física Atmosférica y Oceánica Abordando la turbulencia óptica con otbench

Una nueva herramienta ayuda a los investigadores a modelar la turbulencia óptica de manera efectiva.

2025-09-06T15:31:24+00:00 ― 7 minilectura

Aprendizaje automático Entendiendo la Atribución de Datos con DualView

Explora cómo DualView mejora la atribución de datos en modelos de aprendizaje automático.

2025-09-06T11:41:54+00:00 ― 8 minilectura

Visión por Computador y Reconocimiento de Patrones Evaluando el Desaprendizaje de Máquinas en Modelos de Difusión

Nuevo conjunto de datos mejora los métodos de evaluación para el desaprendizaje de máquinas en la generación de imágenes.

2025-09-06T06:02:12+00:00 ― 7 minilectura

Computación y lenguaje La importancia de simplificar el texto para todos los lectores

La simplificación de textos ayuda a que más gente pueda acceder a la información.

2025-09-06T01:02:00+00:00 ― 7 minilectura

Bibliotecas digitales El papel de las revisiones de literatura en la investigación de PAMI

Examinando la importancia y los desafíos de las revisiones de literatura en Análisis de Patrones e Inteligencia Artificial.

2025-09-05T22:55:36+00:00 ― 11 minilectura

Computación y lenguaje Expandiendo taxonomías con modelos de lenguaje grandes

Automatizando la expansión de taxonomías con modelos de lenguaje avanzados para una mejor organización del conocimiento.

2025-09-05T10:25:06+00:00 ― 7 minilectura

Computación y lenguaje Agentes de Exploración Meta: Una Nueva Forma de Evaluar LLMs

Presentando un enfoque nuevo para evaluar modelos de lenguaje grande de manera efectiva.

2025-09-05T09:14:00+00:00 ― 7 minilectura

Computación y lenguaje Extrayendo Estructuras Comunes de Documentos para una Mejor Comprensión

Un nuevo método identifica los diseños de documentos típicos en varios campos y lenguajes.

2025-09-05T08:34:30+00:00 ― 10 minilectura

Comunicación científica y educación Mejorando la comunicación científica en los NIH

Una encuesta revela información sobre las prácticas de comunicación científica entre el personal del NIH.

2025-09-05T01:49:56+00:00 ― 9 minilectura

Visión por Computador y Reconocimiento de Patrones Evaluando Modelos de Visión-Lenguaje: El Papel de la Incertidumbre

Este estudio destaca la importancia de la incertidumbre al evaluar los Modelos de Visión-Lenguaje.

2025-09-05T01:43:42+00:00 ― 9 minilectura

Computación y lenguaje KIEval: Una nueva forma de evaluar modelos de lenguaje

KIEval ofrece evaluaciones interactivas para abordar la contaminación de datos en los modelos de lenguaje.

2025-09-05T00:16:48+00:00 ― 8 minilectura

Inteligencia artificial Evaluando las alucinaciones en grandes modelos de visión-lenguaje

Este artículo habla sobre un nuevo marco para evaluar las alucinaciones en los LVLMs.

2025-09-04T12:02:06+00:00 ― 8 minilectura

Computación y lenguaje Presentamos SportQA: Un nuevo estándar para el conocimiento deportivo en modelos de lenguaje

SportQA evalúa la comprensión de los modelos de lenguaje sobre deportes a través de más de 70,000 preguntas.

2025-09-04T11:54:12+00:00 ― 9 minilectura

Computación y lenguaje Abordando el sesgo de probabilidad en los modelos de lenguaje

La investigación destaca el sesgo en las evaluaciones de modelos de lenguaje y propone métodos para mejorar.

2025-09-04T11:38:24+00:00 ― 7 minilectura

Computación y lenguaje Reevaluando las evaluaciones de modelos de lenguaje

La investigación desafía los métodos tradicionales de evaluar los valores y opiniones de los modelos de lenguaje.

2025-09-03T21:41:00+00:00 ― 7 minilectura

Visión por Computador y Reconocimiento de Patrones OpenMEDLab: Una plataforma para recursos de IA médica

OpenMEDLab mejora el acceso a herramientas y recursos de IA médica para una mejor atención sanitaria.

2025-09-03T20:06:12+00:00 ― 7 minilectura

Informática y sociedad Presentamos SyllabusQA: Un Nuevo Conjunto de Datos para la Logística de Cursos

SyllabusQA ofrece información para la respuesta automática de preguntas en educación.

2025-09-02T06:34:42+00:00 ― 10 minilectura

Computación y lenguaje Mejorando la Evaluación de la Corrección de Errores Gramaticales

Nuevo conjunto de datos mejora la evaluación de sistemas de corrección de errores gramaticales.

2025-09-01T04:22:36+00:00 ― 7 minilectura

Computación y lenguaje Evaluando las habilidades de simplificación de oraciones de GPT-4

Un estudio sobre la efectividad de GPT-4 en simplificar oraciones.

2025-08-31T16:31:36+00:00 ― 7 minilectura

Computación y lenguaje Evaluando herramientas de procesamiento de lenguaje para mejor rendimiento

Un nuevo método para evaluar herramientas de procesamiento de lenguaje muestra promesas de mejora.

2025-08-31T11:31:24+00:00 ― 6 minilectura

Computación y lenguaje Mejorando la Generación de Mensajes de Commit con CommitBench

Un nuevo conjunto de datos busca mejorar la calidad de los mensajes de commit automáticos para los desarrolladores.

2025-08-31T04:32:42+00:00 ― 11 minilectura

Computación y lenguaje Mejorando las habilidades sociales en agentes de lenguaje

Un nuevo método mejora las habilidades de comunicación de los agentes de lengua.

2025-08-29T19:45:36+00:00 ― 7 minilectura

Computación y lenguaje Evaluando el Sesgo en Modelos de Lenguaje: Un Nuevo Enfoque

Evaluando cómo los sesgos en los modelos de lenguaje afectan las aplicaciones del mundo real.

2025-08-29T12:22:36+00:00 ― 7 minilectura

Computación y lenguaje Avanzando Modelos Multimodales con X-LLaVA

X-LLaVA mejora las capacidades multilingües para responder preguntas visuales.

2025-08-28T16:46:06+00:00 ― 8 minilectura

Computación y lenguaje ChartThinker: Mejorando la Resumen Automático de Gráficos

Descubre cómo ChartThinker mejora los resúmenes de gráficos para una mejor comprensión.

2025-08-28T14:16:00+00:00 ― 8 minilectura

Computación y lenguaje NovelQA: Un nuevo estándar para entender textos largos

Evaluando LLMs en su capacidad para procesar textos largos en literatura.

2025-08-28T03:12:24+00:00 ― 6 minilectura

Computación y lenguaje Evaluando Modelos de Lenguaje con TinyBenchmarks

Un nuevo método para evaluar modelos de lenguaje grandes usando menos ejemplos.

2025-08-28T01:19:48+00:00 ― 7 minilectura

Bases de datos Avances en la Evaluación de Programas Datalog

Mejorando la eficiencia en Datalog a través de semiring y técnicas de anclaje.

2025-08-27T18:07:18+00:00 ― 6 minilectura

Recuperación de información Mejorando la Recuperación de Información Siguiendo Instrucciones

Un nuevo conjunto de datos ayuda a los modelos de IR a adaptarse a instrucciones complejas para mejorar su rendimiento.

2025-08-26T18:49:00+00:00 ― 3 minilectura

Computación y lenguaje Evaluando la calidad de los argumentos con modelos de lenguaje

Descubre cómo los modelos de lenguaje pueden mejorar nuestra comprensión de la calidad de los argumentos.

2025-08-26T06:02:42+00:00 ― 10 minilectura

Recuperación de información Desafíos en la Evaluación de Sistemas de Recuperación de Información Legal

Explorando las complejidades de evaluar los sistemas de recuperación de información legal y su efectividad.

2025-08-25T05:09:36+00:00 ― 9 minilectura

Computación y lenguaje Presentando TriviaHG: Un nuevo conjunto de datos para generar pistas

TriviaHG ofrece pistas para preguntas, fomentando un pensamiento más profundo y aprendizaje.

2025-08-24T23:14:06+00:00 ― 7 minilectura

Computación y lenguaje Evaluando Modelos de Lenguaje en la Investigación Molecular

Un nuevo conjunto de datos mejora la evaluación del conocimiento molecular en los modelos de lenguaje.

2025-08-24T19:45:30+00:00 ― 8 minilectura

Neurociencia Entendiendo los Procesos de Toma de Decisiones en el Cerebro

Este estudio explora cómo nuestros cerebros evalúan opciones y toman decisiones.

2025-08-23T09:22:44+00:00 ― 7 minilectura

Recuperación de información Un marco claro para evaluar sistemas de recomendación

Esta guía ayuda a simplificar la evaluación de sistemas de recomendación para mejorar la experiencia del usuario.

2025-08-23T02:20:12+00:00 ― 8 minilectura

Computación y lenguaje Mejorando la Resumen de Guiones de Películas con Escenas Sobresalientes

Este trabajo se centra en identificar escenas importantes para mejorar los resúmenes de guiones de películas.

2025-08-22T12:54:24+00:00 ― 7 minilectura

Aprendizaje automático El Método Cram: Un Nuevo Enfoque para Aprender Datos

Un método para aprender y evaluar políticas al mismo tiempo usando todos los datos disponibles.

2025-08-22T09:18:56+00:00 ― 8 minilectura