Últimos artículos para Métodos de Evaluación

Física y sociedad Un Enfoque Justo para Clasificar Elecciones

Aprende a clasificar opiniones y elecciones de manera justa usando principios estadísticos.

2025-08-13T13:14:24+00:00 ― 7 minilectura

Informática sanitaria Evaluando la Generación de Lenguaje Natural en Medicina

Un estudio sobre cómo evaluar sistemas NLG para diagnósticos médicos precisos.

2025-08-12T17:03:30+00:00 ― 7 minilectura

Computación y lenguaje Evaluando la comprensión del mundo por parte de la IA

Una mirada a cómo los modelos de IA entienden el conocimiento esencial del mundo.

2025-08-10T22:41:42+00:00 ― 7 minilectura

Computación y lenguaje Evaluando la NLG con el marco AdvEval

AdvEval expone las debilidades en las métricas de evaluación de Generación de Lenguaje Natural.

2025-08-08T07:29:42+00:00 ― 8 minilectura

Computación y lenguaje Mejorando la Evaluación Humana de Modelos de Lenguaje

Un nuevo marco para evaluar modelos de lenguaje grandes con la perspectiva humana.

2025-08-06T00:03:48+00:00 ― 10 minilectura

Inteligencia artificial Un Nuevo Enfoque para la Toma de Decisiones con Lógica de Siete Valores

Aprende cómo la lógica de siete valores mejora la toma de decisiones con múltiples criterios.

2025-08-04T05:00:30+00:00 ― 7 minilectura

Inteligencia artificial Evaluando el favoritismo en métricas de IA generativa

Un nuevo enfoque para evaluar sesgos en métricas de evaluación automatizada de IA.

2025-08-02T22:04:00+00:00 ― 8 minilectura

Computación y lenguaje Avances en la generación de texto controlable con LLMs

Evaluando métodos para el control preciso de las características del texto en las salidas de los LLM.

2025-08-01T15:23:18+00:00 ― 16 minilectura

Computación y lenguaje Evaluando Modelos de Lenguaje a Través de la Colaboración

Un nuevo marco evalúa los modelos de lenguaje en inteligencia emocional y creatividad.

2025-07-30T00:50:48+00:00 ― 9 minilectura

Aprendizaje automático Evaluando Fuentes de Etiquetado con Valores WeShap

WeShap mejora la calidad del etiquetado de datos para modelos de aprendizaje automático.

2025-07-28T06:50:42+00:00 ― 8 minilectura

Inteligencia artificial Marco STAR: Mejorando el Red Teaming para la Seguridad de la IA

Un nuevo enfoque para mejorar las evaluaciones de seguridad de los sistemas de IA usando perspectivas diversas.

2025-07-27T19:47:06+00:00 ― 6 minilectura

Computación y lenguaje Una nueva forma de evaluar modelos de lenguaje grandes

La Taxonomía de Prompts Jerárquicos mejora los métodos de evaluación para modelos de lenguaje.

2025-07-27T05:10:12+00:00 ― 7 minilectura

Computación y lenguaje Evaluando Modelos de Lenguaje: Un Nuevo Enfoque

Un estudio sobre el uso de LLMs para juzgar otros LLMs y sus implicaciones.

2025-07-27T04:30:42+00:00 ― 8 minilectura

Computación y lenguaje Nuevo estándar para evaluar LLMs en propiedad intelectual

IPEval evalúa la comprensión de conceptos de propiedad intelectual en modelos de lenguaje.

2025-07-27T01:29:00+00:00 ― 7 minilectura

Computación y lenguaje Evaluando Modelos de Lenguaje Multilingües en Idiomas Indic

Un estudio completo sobre el rendimiento de los modelos de lenguaje en 10 idiomas indios.

2025-07-25T17:37:12+00:00 ― 8 minilectura

Visión por Computador y Reconocimiento de Patrones ChronoMagic-Bench: Avanzando la Evaluación de Videos en Time-Lapse

Nuevos estándares mejoran la forma en que evaluamos videos generados en time-lapse.

2025-07-24T00:40:18+00:00 ― 9 minilectura

Computación y lenguaje Evaluando Métodos de Resumen de Texto con LLMs

Este artículo examina métodos para evaluar resúmenes de texto utilizando modelos de lenguaje grandes.

2025-07-22T04:41:42+00:00 ― 10 minilectura

Visión por Computador y Reconocimiento de Patrones Evaluando la Generación de Video: El Protocolo DEVIL

Un nuevo método para evaluar modelos de texto a video se centra en la dinámica.

2025-07-21T10:07:48+00:00 ― 8 minilectura

Computación y lenguaje M5 Benchmark: Evaluando Modelos Multimodales a Través de Culturas

Un nuevo estándar evalúa el rendimiento de los modelos de lenguaje a nivel mundial.

2025-07-19T04:40:24+00:00 ― 8 minilectura

Computación y lenguaje Evaluando Historias Visuales Generadas por Máquinas

Se presenta un nuevo método para evaluar la calidad de las historias en las máquinas.

2025-07-18T16:09:54+00:00 ― 9 minilectura

Inteligencia artificial Avanzando Agentes Interactivos con Lenguaje Fundado

Un estudio sobre cómo mejorar la capacidad de la IA para seguir instrucciones en lenguaje natural.

2025-07-15T11:00:30+00:00 ― 10 minilectura

Inteligencia artificial Evaluando experiencias de XAI con la escala XEQ

Una nueva escala ayuda a medir las experiencias de los usuarios en sistemas de IA explicable.

2025-07-13T03:50:24+00:00 ― 7 minilectura

Inteligencia artificial Evaluando Modelos de Lenguaje en Programación Científica

Un nuevo estándar evalúa modelos de lenguaje en desafíos de codificación científica en varios campos.

2025-07-10T17:22:48+00:00 ― 7 minilectura

Aprendizaje automático Nuevo marco para evaluar la generalización de modelos de IA

Presentamos un método para evaluar modelos de IA en datos no vistos de manera más efectiva.

2025-07-09T06:05:36+00:00 ― 8 minilectura

Computación y lenguaje Evaluando Modelos de Lenguaje: Un Nuevo Toolkit

Un kit de herramientas diseñado para mejorar la evaluación de las interacciones entre humanos y bots.

2025-07-06T18:11:06+00:00 ― 6 minilectura

Sonido Evaluando la comprensión musical con el benchmark MuChoMusic

Un nuevo estándar para evaluar modelos que analizan música y lenguaje.

2025-07-06T05:29:45+00:00 ― 7 minilectura

Visión por Computador y Reconocimiento de Patrones Evaluando Modelos de Imagen para la Comprensión de Gráficos

Nuevo marco evalúa cómo los modelos de imagen interpretan la información gráfica a través de la precisión del canal.

2025-07-04T23:23:36+00:00 ― 6 minilectura

Aprendizaje automático Evaluando Autoencoders Escasos con Juegos de Mesa

Un nuevo marco para evaluar autoencoders escasos a través del ajedrez y Othello.

2025-07-04T12:43:42+00:00 ― 6 minilectura

Recuperación de información Taller sobre Modelos de Lenguaje Grande en la Recuperación de Información

Los investigadores discuten el impacto de los LLM en la evaluación de sistemas de recuperación de información.

2025-06-30T04:26:54+00:00 ― 7 minilectura

Aprendizaje automático Evaluando Modelos de Lenguaje Grandes para Uso en el Mundo Real

Un nuevo enfoque para evaluar LLMs con conjuntos de evaluación diversos.

2025-06-26T22:53:48+00:00 ― 7 minilectura

Computación y lenguaje Evaluando Modelos de Lenguaje Grande de Manera Justa

Un nuevo enfoque para evaluar modelos de lenguaje con instrucciones y tareas variadas.

2025-06-23T14:58:30+00:00 ― 8 minilectura

Informática y sociedad Evaluando AI Confiable: Métodos y Desafíos

Una mirada a la evaluación de sistemas de IA confiables y los métodos involucrados.

2025-06-21T05:26:12+00:00 ― 7 minilectura

Ingeniería del software Evaluando resúmenes de informes de errores con LLMs

Este estudio examina cómo los LLM evalúan los resúmenes de informes de errores en comparación con los evaluadores humanos.

2025-06-18T20:41:18+00:00 ― 7 minilectura

Computación y lenguaje Evaluando la generación de texto largo en LLMs

LongGenBench evalúa modelos de lenguaje grandes en la generación de textos largos de alta calidad.

2025-06-17T21:54:36+00:00 ― 7 minilectura

Visión por Computador y Reconocimiento de Patrones Evaluando Modelos de Visión por Computadora con Teoría de Respuesta al Ítem

Usando IRT para una evaluación más profunda del rendimiento del modelo de visión por computadora.

2025-06-15T21:19:30+00:00 ― 7 minilectura

Inteligencia artificial Nuevo benchmark de VisScience evalúa el aprendizaje multimodal

VisScience prueba grandes modelos en razonamiento científico usando texto e imágenes.

2025-06-15T07:37:54+00:00 ― 5 minilectura

Computación y lenguaje Evaluando la Pregunta Respuesta Fundamentada con GroUSE

Este artículo habla sobre los desafíos y soluciones en la evaluación de modelos de respuesta a preguntas basadas en contexto.

2025-06-14T07:48:00+00:00 ― 12 minilectura

Computación y lenguaje Evaluando Sistemas de Generación Aumentada por Recuperación: Un Nuevo Conjunto de Datos

Presentando un conjunto de datos para evaluar el rendimiento de los sistemas RAG en situaciones del mundo real.

2025-06-09T11:56:00+00:00 ― 7 minilectura

Computación y lenguaje Presentamos a Michelangelo: Una Nueva Evaluación para Modelos de Lenguaje

Michelangelo evalúa los modelos de lenguaje según su capacidad para razonar a través de contextos largos.

2025-06-09T07:51:06+00:00 ― 4 minilectura

Computación y lenguaje Kalahi: Evaluando Modelos de Lenguaje en la Cultura Filipina

Una herramienta para evaluar la relevancia y adecuación de los modelos de lenguaje en contextos filipinos.

2025-06-09T04:49:24+00:00 ― 6 minilectura