Últimos artículos para Evaluación de Datos

Computación y lenguaje SIB-200: Un Paso Hacia la Evaluación de Lenguaje Inclusivo

Nuevo conjunto de datos mejora la evaluación de modelos multilingües en diferentes idiomas.

2025-09-26T23:44:12+00:00 ― 8 minilectura

Computación y lenguaje Una nueva forma de evaluar sistemas de respuesta a preguntas

SQuArE métrico mejora la evaluación de sistemas de QA a través de múltiples referencias de respuestas.

2025-09-23T13:58:18+00:00 ― 6 minilectura

Visión por Computador y Reconocimiento de Patrones Evaluando la Segmentación Semántica Débilmente Supervisada para Objetos Pequeños

Nuevos métodos mejoran la evaluación del rendimiento de objetos pequeños en WSSS.

2025-09-22T00:11:00+00:00 ― 8 minilectura

Computación y lenguaje Evaluando Sistemas de Generación Aumentada por Recuperación

Un nuevo marco para evaluar sistemas RAG sin referencias humanas.

2025-09-21T17:51:48+00:00 ― 6 minilectura

Computación y lenguaje Nuevo método de evaluación para la calidad de respuestas

Presentando un método que mide la calidad de las respuestas a diferentes niveles de detalle.

2025-09-18T05:04:12+00:00 ― 7 minilectura

Computación y lenguaje Mejorando los métodos de evaluación en sistemas de preguntas y respuestas

Este estudio propone nuevos métodos para evaluar respuestas en la respuesta a preguntas en máquinas.

2025-09-15T03:20:12+00:00 ― 9 minilectura

Inteligencia artificial Mejorando los métodos de evaluación de explicaciones de IA

Nuevos métodos mejoran la evaluación de las explicaciones de los modelos de IA.

2025-09-13T08:41:04+00:00 ― 8 minilectura

Computación y lenguaje Avances en la evaluación de modelos de lenguaje con WSC+

Un nuevo conjunto de datos y método mejoran la generación de preguntas en modelos de lenguaje.

2025-09-12T20:18:00+00:00 ― 7 minilectura

Computación y lenguaje Mejorando la Verificación del Razonamiento en Modelos de Lenguaje

Nuevo conjunto de datos mejora la verificación de los pasos de razonamiento en modelos de IA.

2025-09-12T11:28:42+00:00 ― 8 minilectura

Computación y lenguaje Evaluando Modelos de Lenguaje con Nuevos Estándares

Este artículo presenta un estándar para evaluar modelos de lenguaje grandes con tareas complejas.

2025-09-11T04:55:54+00:00 ― 8 minilectura

Computación y lenguaje Evaluando la riqueza del vocabulario en ChatGPT

Un estudio sobre cómo ChatGPT usa el lenguaje y las características del vocabulario.

2025-09-09T07:46:12+00:00 ― 12 minilectura

Inteligencia artificial Evaluando Modelos de Lenguaje Grande en Ciberseguridad

Una mirada detallada a la evaluación de expertos en inteligencia artificial y humanos en ciberseguridad por parte de CyberMetric.

2025-09-08T19:39:24+00:00 ― 10 minilectura

Computación y lenguaje Evaluando la Edición de Modelos en Textos Largos

Un nuevo método evalúa la efectividad de la edición de modelos para generar textos más largos.

2025-09-08T06:21:30+00:00 ― 10 minilectura

Computación y lenguaje Mejorando los métodos de evaluación de preguntas y respuestas

Un nuevo marco para evaluar la corrección de las respuestas de IA con un juicio parecido al humano.

2025-09-07T13:06:36+00:00 ― 8 minilectura

Visión por Computador y Reconocimiento de Patrones Evaluando el Desaprendizaje de Máquinas en Modelos de Difusión

Nuevo conjunto de datos mejora los métodos de evaluación para el desaprendizaje de máquinas en la generación de imágenes.

2025-09-06T06:02:12+00:00 ― 7 minilectura

Computación y lenguaje Presentamos FanOutQA: Un nuevo conjunto de datos para responder preguntas complejas

FanOutQA ayuda a evaluar modelos de lenguaje en preguntas complicadas de múltiples pasos usando datos estructurados.

2025-09-05T08:58:12+00:00 ― 7 minilectura

Visión por Computador y Reconocimiento de Patrones Abordando la alucinación visual en modelos de IA

Una nueva herramienta genera diversas instancias de alucinaciones visuales para mejorar la precisión de la IA.

2025-09-04T23:45:12+00:00 ― 6 minilectura

Inteligencia artificial Evaluando las alucinaciones en grandes modelos de visión-lenguaje

Este artículo habla sobre un nuevo marco para evaluar las alucinaciones en los LVLMs.

2025-09-04T12:02:06+00:00 ― 8 minilectura

Aprendizaje automático Referencias de toda la vida: Un nuevo enfoque para la evaluación de modelos

Un método para la evaluación continua de modelos en aprendizaje automático para prevenir el sobreajuste.

2025-09-02T23:49:36+00:00 ― 7 minilectura

Computación y lenguaje Mejorando la Verificación de Hechos en Sistemas RAG

Un nuevo método mejora la verificación de hechos en sistemas de generación aumentada por recuperación.

2025-08-31T22:19:12+00:00 ― 9 minilectura

Computación y lenguaje Mejorando el Reconocimiento de Intenciones en Sistemas Conversacionales

Mejorando la comprensión de las intenciones del usuario a través de la negación y la implicatura.

2025-08-31T10:04:30+00:00 ― 6 minilectura

Computación y lenguaje Evaluando Modelos de Lenguaje en el Reconocimiento de Entidades del Discurso

Un análisis de cómo los modelos de lenguaje entienden las reglas de reconocimiento de entidades.

2025-08-30T21:34:00+00:00 ― 8 minilectura

Ingeniería del software Evaluando el realismo en escenarios de prueba de autos autónomos usando LLMs

Esta investigación evalúa el uso de LLMs para escenarios realistas de autos autónomos.

2025-08-29T14:13:48+00:00 ― 10 minilectura

Computación y lenguaje Mejorando el PLN para dialectos diversos

Un marco para mejorar el rendimiento de NLP en varios dialectos de idiomas.

2025-08-28T20:51:00+00:00 ― 5 minilectura

Computación y lenguaje NovelQA: Un nuevo estándar para entender textos largos

Evaluando LLMs en su capacidad para procesar textos largos en literatura.

2025-08-28T03:12:24+00:00 ― 6 minilectura

Aprendizaje automático Evaluando la fiabilidad de los LLM en biomedicina

Un nuevo marco evalúa qué tan confiables son los LLMs como asistentes biomédicos.

2025-08-27T05:13:06+00:00 ― 5 minilectura

Ingeniería del software Evaluando Modelos de Lenguaje de Código: El Reto de la Contaminación de Datos

Un estudio destaca el impacto de la contaminación de datos en las evaluaciones de modelos de código.

2025-08-25T23:27:42+00:00 ― 7 minilectura

Computación y lenguaje Evaluando Modelos de Lenguaje en la Investigación Molecular

Un nuevo conjunto de datos mejora la evaluación del conocimiento molecular en los modelos de lenguaje.

2025-08-24T19:45:30+00:00 ― 8 minilectura

Visión por Computador y Reconocimiento de Patrones Transformando la comprensión de imágenes con SPHINX-V

SPHINX-V mejora la capacidad de la IA para interpretar imágenes a través de la interacción del usuario.

2025-08-24T07:49:48+00:00 ― 7 minilectura

Computación y lenguaje BEAR: Un Nuevo Marco para Evaluar Modelos de Lenguaje

BEAR mejora la evaluación del conocimiento relacional en los modelos de lenguaje.

2025-08-22T05:16:12+00:00 ― 10 minilectura

Computación y lenguaje Evaluando la Consistencia Parafrástica en Modelos de Lenguaje

Este estudio examina cómo los modelos de lenguaje manejan diferentes expresiones de los mismos problemas de razonamiento.

2025-08-18T21:28:48+00:00 ― 5 minilectura

Computación y lenguaje Evaluando la Toxicidad en Modelos de Lenguaje Multilingües

Un nuevo conjunto de datos evalúa cómo los modelos de lenguaje manejan contenido dañino en diferentes culturas.

2025-08-17T13:52:48+00:00 ― 6 minilectura

Computación y lenguaje Evaluando la Precisión de Grandes Modelos de Lenguaje y Visión

Un nuevo estándar mejora cómo evaluamos los LVLMs y su precisión.

2025-08-17T06:46:12+00:00 ― 6 minilectura

Computación y lenguaje Evaluando la Memoria Factual en Modelos de Lenguaje Grandes

Una evaluación de qué tan bien los LLMs recuerdan información factual y los factores involucrados.

2025-08-16T20:45:48+00:00 ― 7 minilectura

Visión por Computador y Reconocimiento de Patrones Evaluando Modelos de Texto a Imagen: Un Nuevo Enfoque

Este estudio ofrece métodos mejorados para evaluar modelos de texto a imagen.

2025-08-16T12:59:42+00:00 ― 8 minilectura

Computación y lenguaje Avanzando el Aprendizaje de Pocas Muestras para Tareas en Polaco

Un estudio que evalúa métodos de aprendizaje de pocos disparos para la clasificación del idioma polaco.

2025-08-15T22:38:36+00:00 ― 5 minilectura

Visión por Computador y Reconocimiento de Patrones Evaluando la Extracción de Información en Textos Manuscritos

N nuevas métricas mejoran la evaluación de sistemas de extracción de información en documentos manuscritos.

2025-08-15T11:58:42+00:00 ― 8 minilectura

Computación y lenguaje Presentamos WorkBench: Un nuevo conjunto de datos de tareas de oficina

WorkBench prueba la habilidad de los agentes para realizar tareas de oficina realistas con un método de evaluación único.

2025-08-14T22:09:12+00:00 ― 7 minilectura

Computación y lenguaje Evaluando Modelos de Lenguaje Grande en un Mundo Cambiante

Evaluando cómo los LLMs se adaptan a nueva información y sesgos.

2025-08-11T02:46:36+00:00 ― 9 minilectura

Inteligencia artificial Evaluando Modelos de Lenguaje con el Marco ALI-Agent

Un nuevo método para evaluar la alineación de los modelos de lenguaje con los valores humanos.

2025-08-09T06:16:24+00:00 ― 8 minilectura