Últimos artículos para Evaluación

Visión por Computador y Reconocimiento de Patrones Presentamos VideoVista: Un nuevo estándar para la calidad de video

VideoVista ofrece una evaluación completa para modelos de preguntas y respuestas de video.

2025-07-27T13:35:48+00:00 ― 7 minilectura

Computación distribuida, paralela y en clústeres Mejorando la Reproducibilidad en la Investigación de Sistemas Distribuidos

Este artículo explora métodos para mejorar la fiabilidad de los artefactos de investigación en informática.

2025-07-27T08:04:00+00:00 ― 9 minilectura

Computación y lenguaje Una Mirada Más Cerca a los Modelos GLM-4

Los modelos GLM-4 muestran capacidades mejoradas en comprensión y generación de lenguaje.

2025-07-27T06:52:54+00:00 ― 10 minilectura

Computación y lenguaje Evaluando Modelos de Lenguaje: Un Nuevo Enfoque

Un estudio sobre el uso de LLMs para juzgar otros LLMs y sus implicaciones.

2025-07-27T04:30:42+00:00 ― 8 minilectura

Computación y lenguaje Racionalizaciones en el Ranking de Argumentos por Modelos de Lenguaje

Un estudio sobre cómo los modelos de lenguaje generan razones persuasivas para la evaluación de argumentos.

2025-07-26T20:52:30+00:00 ― 7 minilectura

Computación y lenguaje Nuevos Modelos de Lenguaje Mejoran la Accesibilidad del Gallego

Dos nuevos modelos buscan mejorar el acceso a la tecnología para los hablantes de gallego.

2025-07-26T20:44:36+00:00 ― 6 minilectura

Computación y lenguaje Desafíos de la Traducción Automática en Metáforas

Examinando las dificultades de traducir lenguaje metafórico en la traducción automática.

2025-07-26T17:58:42+00:00 ― 7 minilectura

Visión por Computador y Reconocimiento de Patrones Presentamos DF40: un nuevo conjunto de datos para la detección de deepfakes

DF40 ofrece un enfoque integral para mejorar los métodos de detección de deepfakes.

2025-07-26T16:08:06+00:00 ― 7 minilectura

Computación y lenguaje Evaluando la Honestidad en Modelos de Lenguaje Grandes

Este estudio evalúa la honestidad de los LLM en tres áreas clave.

2025-07-26T14:33:18+00:00 ― 6 minilectura

Recuperación de información Mejorando los Sistemas de Preguntas y Respuestas en las Empresas

Descubre cómo las empresas mejoran sus sistemas de preguntas y respuestas para dar un mejor soporte a los usuarios.

2025-07-26T12:26:54+00:00 ― 5 minilectura

Inteligencia artificial Evaluando la comprensión de la IA sobre algoritmos

Un estudio sobre cómo la IA comprende los algoritmos y sus implicaciones.

2025-07-26T11:31:36+00:00 ― 8 minilectura

Computación y lenguaje Evaluando la Clasificación de Texto en Diferentes Dominios con Profundidad

Una nueva métrica mejora la evaluación de modelos de clasificación de texto en diferentes dominios.

2025-07-26T10:44:12+00:00 ― 8 minilectura

Computación y lenguaje Contaminación de datos en modelos de lenguaje: una preocupación creciente

La contaminación de datos afecta mucho la evaluación de los modelos de lenguaje grandes.

2025-07-26T10:12:36+00:00 ― 6 minilectura

Computación y lenguaje Evaluando Modelos de Lenguaje Grande para la Alineación Ética

Un nuevo método para evaluar LLMs se alinea con los valores humanos.

2025-07-26T05:12:24+00:00 ― 8 minilectura

Visión por Computador y Reconocimiento de Patrones Abordando el sesgo en la IA: el enfoque VLBiasBench

Una nueva herramienta para evaluar sesgos en grandes modelos de visión-lenguaje.

2025-07-26T01:15:24+00:00 ― 7 minilectura

Computación y lenguaje Evaluando la diversidad en la generación automática de poesía

Un estudio evalúa cómo las máquinas crean poesía variada y creativa en comparación con los humanos.

2025-07-25T20:38:54+00:00 ― 7 minilectura

Computación y lenguaje Evaluando Contranarrativas Contra el Discurso de Odio

Un nuevo método mejora cómo evaluamos las contranarrativas al discurso de odio.

2025-07-25T20:15:12+00:00 ― 7 minilectura

Computación y lenguaje Presentamos InternLM-Law: Un Modelo para Consultas Legales

InternLM-Law mejora las respuestas a diversas preguntas legales chinas con un entrenamiento avanzado.

2025-07-25T15:30:48+00:00 ― 8 minilectura

Computación y lenguaje El papel de los perfiles de usuario en los modelos de lenguaje

Explorando cómo los perfiles de usuario mejoran la personalización en los modelos de lenguaje.

2025-07-25T14:11:48+00:00 ― 7 minilectura

Computación y lenguaje Evaluando el rendimiento del modelo en la comprensión de las dependencias del plan

La investigación muestra que los modelos tienen problemas con las dependencias de pasos en las recetas de cocina.

2025-07-25T11:41:42+00:00 ― 6 minilectura

Computación y lenguaje Una nueva forma de evaluar modelos de lenguaje

Este documento presenta un método para evaluar modelos de lenguaje en diferentes indicaciones.

2025-07-25T08:45:12+00:00 ― 8 minilectura

Computación y lenguaje Evaluando el sesgo de género en modelos de lenguaje a través de regiones

Nuevo método aborda las diferencias regionales en la evaluación del sesgo de género.

2025-07-25T07:13:06+00:00 ― 7 minilectura

Computación y lenguaje Nuevo conjunto de datos mejora los modelos de lenguaje para conversaciones de varios turnos

El conjunto de datos M2Lingual mejora las capacidades de seguir instrucciones en varios idiomas.

2025-07-24T23:03:18+00:00 ― 7 minilectura

Visión por Computador y Reconocimiento de Patrones Un nuevo enfoque para evaluar modelos de texto a imagen

Este artículo presenta un nuevo método para evaluar modelos de texto a imagen de manera efectiva.

2025-07-24T20:25:18+00:00 ― 8 minilectura

Computación y lenguaje Evaluando modelos de lenguaje italiano con pruebas INVALSI

Este estudio evalúa el rendimiento de los Modelos de Lenguaje utilizando las pruebas INVALSI italianas.

2025-07-24T09:37:30+00:00 ― 9 minilectura

Computación y lenguaje Avances en Sistemas RAG: Un Nuevo Marco de Evaluación

RAGBench presenta un conjunto de datos completo para evaluar sistemas de Generación Aumentada de Recuperación.

2025-07-24T05:24:42+00:00 ― 8 minilectura

Visión por Computador y Reconocimiento de Patrones Evaluando Grandes Modelos de Visión-Lenguaje con Dysca

Dysca presenta una nueva forma de evaluar el rendimiento de LVLM utilizando datos sintéticos.

2025-07-24T03:49:54+00:00 ― 8 minilectura

Software matemático Avances en técnicas de optimización topológica

Una mirada a los métodos modernos en el diseño de ingeniería para la eficiencia y el rendimiento.

2025-07-23T22:52:08+00:00 ― 9 minilectura

Computación y lenguaje Avances en Métodos de Extracción de Eventos Causales

Un nuevo enfoque mejora la extracción de eventos causales utilizando evaluación centrada en el ser humano.

2025-07-23T21:38:36+00:00 ― 6 minilectura

Aprendizaje automático Evaluando el impacto de posponer sistemas en el aprendizaje automático

Evaluando cómo el deferir a expertos humanos afecta la precisión de las predicciones en modelos de ML.

2025-07-23T14:11:48+00:00 ― 10 minilectura

Aprendizaje automático Avanzando la Optimización Bayesiana con Búsqueda de Entropía Robusta

Presentando un nuevo método para mejores soluciones en tareas complejas de ingeniería y robótica.

2025-07-23T07:31:16+00:00 ― 7 minilectura

Computación y lenguaje Evaluando Conjuntos de Datos para Detección de Discurso de Odio

Un estudio que evalúa la calidad de los conjuntos de datos para identificar el discurso de odio en línea.

2025-07-23T04:07:54+00:00 ― 10 minilectura

Computación y lenguaje Evaluando la Revisión de Creencias en Modelos de Lenguaje

Un nuevo método mide cómo los modelos de lenguaje adaptan sus creencias con nueva evidencia.

2025-07-22T18:07:30+00:00 ― 11 minilectura

Visión por Computador y Reconocimiento de Patrones Repensando los Métodos de Evaluación para Modelos Multimodales

Nuevo estándar mejora la evaluación de modelos multimodales al minimizar sesgos.

2025-07-22T12:12:00+00:00 ― 7 minilectura

Inteligencia artificial Evaluando LLMs con la herramienta GraphArena

GraphArena evalúa el rendimiento de LLM en problemas de grafos usando datos del mundo real.

2025-07-22T10:13:30+00:00 ― 7 minilectura

Matemáticas discretas Crédito Justo en Proyectos Grupales: Un Nuevo Enfoque

Explora un método justo para compartir el crédito en proyectos en grupo.

2025-07-21T22:54:06+00:00 ― 7 minilectura

Computación y lenguaje Evaluando Modelos de Lenguaje para la Investigación Científica

Un nuevo estándar para evaluar modelos de lenguaje grandes en pruebas de hipótesis.

2025-07-21T19:52:24+00:00 ― 8 minilectura

Inteligencia artificial Presentando CRAB: Un Nuevo Estándar para Modelos de Lenguaje

CRAB mejora las pruebas para modelos de lenguaje en entornos del mundo real.

2025-07-21T18:41:18+00:00 ― 8 minilectura

Recuperación de información Evaluando sistemas de recuperación de información en entornos cambiantes

Este artículo examina el impacto de los cambios temporales en las evaluaciones de sistemas de recuperación de información.

2025-07-21T15:08:00+00:00 ― 6 minilectura

Visión por Computador y Reconocimiento de Patrones Abordando la equidad en los modelos de imagen médica

Presentamos FairMedFM para evaluar la equidad de los modelos de base en el sector salud.

2025-07-21T07:45:36+00:00 ― 7 minilectura