Últimos artículos para Evaluación del Modelo

Computación y lenguaje Abordando la descalibración en modelos de NLP adversariales

Examinando el impacto de la descalibración en la resiliencia de los modelos de NLP ante ataques adversariales.

2025-09-03T12:04:18+00:00 ― 8 minilectura

Aprendizaje automático Mejorando la seguridad en modelos de lenguaje a través de pruebas de equipo basadas en la curiosidad

Un nuevo método mejora la robustez de las pruebas de los modelos de lenguaje al priorizar la novedad.

2025-09-02T23:33:48+00:00 ― 9 minilectura

Aprendizaje automático Abordando las vulnerabilidades en modelos de aprendizaje automático

Examinando el entrenamiento adversarial para hacer modelos de aprendizaje automático más fuertes contra ataques.

2025-09-02T23:11:08+00:00 ― 7 minilectura

Computación y lenguaje Desafíos en la Extracción de Relaciones para Modelos de Lenguaje

Los modelos de lenguaje grandes tienen problemas para extraer con precisión las relaciones entre entidades.

2025-09-02T19:21:00+00:00 ― 6 minilectura

Computación y lenguaje Abordando la alucinación numérica en modelos de visión-lenguaje

Este artículo destaca los desafíos relacionados con la precisión en el conteo en modelos de IA.

2025-09-02T06:03:06+00:00 ― 8 minilectura

Computación y lenguaje Nuevo estándar para evaluar las habilidades de razonamiento de los MLLMs

NPHardEval4V evalúa las capacidades de razonamiento de modelos de lenguaje grande multimodal.

2025-09-01T13:19:48+00:00 ― 10 minilectura

Computación y lenguaje Evaluando Modelos de Lenguaje con el Conjunto de Datos PARADISE

Un nuevo conjunto de datos para evaluar las habilidades de planificación de los modelos de lenguaje en tareas de la vida real.

2025-09-01T03:19:24+00:00 ― 8 minilectura

Criptografía y seguridad Nueva métrica para evaluar la resiliencia de modelos contra ataques

Presentando el hypervolumen adversarial para evaluar mejor el rendimiento de los modelos de aprendizaje profundo.

2025-08-31T03:37:24+00:00 ― 8 minilectura

Aprendizaje automático Evaluando Transformadores Simplificados para Pronósticos de Series Temporales

Este trabajo analiza el rendimiento de transformadores simplificados en tareas de pronóstico.

2025-08-30T16:44:52+00:00 ― 8 minilectura

Visión por Computador y Reconocimiento de Patrones Evaluando Modelos de Lenguaje Multimodal con el Benchmark CoIN

Un nuevo estándar evalúa el aprendizaje continuo en modelos de lenguaje multimodal.

2025-08-29T17:23:24+00:00 ― 7 minilectura

Aprendizaje automático Entendiendo el marco PAC-Bayes para la generalización de modelos

Una mirada a PAC-Bayes y su impacto en el rendimiento del modelo.

2025-08-29T13:12:40+00:00 ― 7 minilectura

Visión por Computador y Reconocimiento de Patrones AVIBench: Nueva herramienta para evaluar LVLMs contra ataques adversariales

AVIBench prueba a los LVLMs para asegurarse de que aguanten instrucciones visuales adversariales.

2025-08-29T08:26:12+00:00 ― 9 minilectura

Visión por Computador y Reconocimiento de Patrones Evaluando VMamba: Un Nuevo Modelo en Visión por Computadora

Este artículo revisa las fortalezas y debilidades del modelo VMamba.

2025-08-28T20:11:30+00:00 ― 6 minilectura

Computación y lenguaje Examinando la Lealtad en las Explicaciones de Modelos de Lenguaje

Un estudio comparando las explicaciones de modelos multilingües y monolingües y su fidelidad.

2025-08-27T21:16:54+00:00 ― 9 minilectura

Aprendizaje automático Evaluando la Creatividad en Modelos Generativos con KEN Score

Un nuevo método para evaluar la novedad en los resultados de la IA generativa.

2025-08-25T21:35:40+00:00 ― 6 minilectura

Aprendizaje automático Métodos para clasificar datos y estimar la incertidumbre

Explora varios modelos usados para la clasificación de datos y la estimación de incertidumbre.

2025-08-25T04:04:16+00:00 ― 6 minilectura

Computación y lenguaje GAHD: Enfrentando el Discurso de Odio en Textos Alemanes

Un nuevo conjunto de datos tiene como objetivo mejorar los modelos de detección de discurso de odio para el idioma alemán.

2025-08-24T16:39:06+00:00 ― 6 minilectura

Computación y lenguaje Evaluando modelos de NLP a través de la distribución de datos

Este documento examina cómo los datos afectan la evaluación de los modelos de PNL.

2025-08-23T22:13:06+00:00 ― 7 minilectura

Inteligencia artificial IsoBench: Una Nueva Herramienta para Evaluar Modelos

IsoBench evalúa cómo los modelos manejan texto e imágenes para identificar sus fortalezas.

2025-08-23T16:57:06+00:00 ― 4 minilectura

Aprendizaje automático Ataques Adversarios en Aprendizaje Automático: Una Visión General

Aprende sobre ataques adversariales y su impacto en los modelos de aprendizaje automático.

2025-08-20T13:14:36+00:00 ― 8 minilectura

Computación y lenguaje Evaluando la seguridad en los modelos de lenguaje

Un estudio que compara el rendimiento en seguridad de los modelos de lenguaje populares.

2025-08-19T13:40:30+00:00 ― 6 minilectura

Aprendizaje automático Analizando el impacto de los datos de entrenamiento en los modelos de IA

Un marco para evaluar cómo los datos de entrenamiento influyen en el comportamiento del modelo de IA.

2025-08-17T09:08:24+00:00 ― 12 minilectura

Computación y lenguaje Evaluando modelos de lenguaje con el benchmark VISLA

Un nuevo estándar evalúa la comprensión de los modelos de lenguaje sobre los significados de las palabras y sus relaciones.

2025-08-16T08:07:24+00:00 ― 6 minilectura

Aprendizaje automático Evaluando la estabilidad del aprendizaje automático con robustez armónica

Un método para verificar la fiabilidad del modelo sin etiquetas verdaderas.

2025-08-15T13:17:42+00:00 ― 7 minilectura

Computación y lenguaje Evaluando la Representación del Conocimiento en Modelos de Lenguaje

Un estudio que compara métodos de atribución de Instancia y Neurona en modelos de lenguaje.

2025-08-15T11:50:48+00:00 ― 9 minilectura

Aprendizaje automático Aprendizaje por Transferencia: Perspectivas sobre el Rendimiento del Modelo

Explorando cómo el aprendizaje por transferencia afecta la efectividad del modelo en diferentes contextos de datos.

2025-08-15T11:15:40+00:00 ― 6 minilectura

Cosmología y astrofísica no galáctica Un Nuevo Enfoque para la Comparación de Modelos en Cosmología

Presentamos el método FB para una mejor evaluación de modelos en cosmología.

2025-08-15T06:15:16+00:00 ― 7 minilectura

Visión por Computador y Reconocimiento de Patrones Evaluando la confianza de la IA en la estimación de incertidumbre

Un estudio revela problemas de sobreconfianza en los modelos de lenguaje y visión de IA.

2025-08-13T16:08:00+00:00 ― 7 minilectura

Aprendizaje automático Acelerando la Selección de Modelos con Parada Temprana

Este artículo habla sobre el early stopping para mejorar la eficiencia en la selección de modelos en aprendizaje automático.

2025-08-13T09:01:24+00:00 ― 8 minilectura

Aprendizaje automático Embeddings de Variables Compartidas en Aprendizaje Multi-tarea

Explorando los beneficios y desafíos de las incrustaciones de variables compartidas en el aprendizaje automático.

2025-08-12T00:38:00+00:00 ― 8 minilectura

Computación Neuronal y Evolutiva Mejorando la Programación Genética con Minimización Consciente de Nitidez

Nuevas técnicas mejoran la fiabilidad y simplicidad en los modelos de programación genética.

2025-08-10T15:43:00+00:00 ― 9 minilectura

Aprendizaje automático AnyLoss: Un Nuevo Enfoque para la Evaluación de Modelos

Presentamos AnyLoss, transformando métricas en funciones de pérdida para un mejor entrenamiento del modelo.

2025-08-08T09:12:24+00:00 ― 9 minilectura

Visión por Computador y Reconocimiento de Patrones Mejorando la transparencia en la detección de objetos con IA

Este artículo habla sobre nuevos métodos para explicar las decisiones de la IA en la detección de objetos.

2025-08-06T11:23:12+00:00 ― 8 minilectura

Aprendizaje automático Navegando vulnerabilidades en la IA: Ejemplos adversariales

Una mirada a cómo los ejemplos adversariales desafían a los modelos de IA.

2025-08-06T05:43:30+00:00 ― 7 minilectura

Econometría Eligiendo parámetros de ajuste en el análisis de datos

Aprende métodos clave para seleccionar parámetros de ajuste en análisis de datos para mejores predicciones.

2025-08-04T12:24:40+00:00 ― 6 minilectura

Criptografía y seguridad Evaluando Grandes Modelos de Lenguaje en Ciberseguridad

Un nuevo estándar para evaluar LLMs en tareas de ciberseguridad.

2025-08-04T08:33:48+00:00 ― 9 minilectura

Aprendizaje automático Revisando el Desenredo en Modelos de Aprendizaje Automático

Este documento propone nuevos métodos para evaluar la fragmentación de información en el aprendizaje automático.

2025-08-04T01:50:54+00:00 ― 9 minilectura

Aprendizaje automático Un nuevo método para modelos de IA interpretables

Este documento presenta un enfoque para crear clasificadores de IA que sean fáciles de entender.

2025-08-02T21:24:30+00:00 ― 5 minilectura

Aprendizaje automático Evaluando el Aprendizaje Auto-Supervisado en Tareas de Clustering

Este estudio examina qué tan bien los modelos preentrenados agrupan datos no vistos.

2025-08-02T13:14:42+00:00 ― 7 minilectura

Aprendizaje automático Avanzando en el Desaprender de Máquinas para Aprendizaje Contrastivo

Presentando nuevos métodos para mejorar los procesos de olvido en modelos de aprendizaje contrastivo.

2025-08-02T03:06:24+00:00 ― 8 minilectura