Últimos artículos para Evaluación

Visión por Computador y Reconocimiento de Patrones Abordando la equidad en los modelos de imagen médica

Presentamos FairMedFM para evaluar la equidad de los modelos de base en el sector salud.

2025-07-21T07:45:36+00:00 ― 7 minilectura

Computación y lenguaje Avanzando Modelos de Lenguaje Árabe con el Conjunto de Datos InstAr-500k

Nuevo conjunto de datos mejora el rendimiento del modelo de lenguaje árabe y fomenta la comunicación efectiva.

2025-07-20T16:05:30+00:00 ― 7 minilectura

Computación y lenguaje El impacto de la cuantización en modelos multilingües

Estudiando cómo la cuantización afecta el rendimiento en diferentes idiomas.

2025-07-20T08:43:06+00:00 ― 7 minilectura

Ingeniería del software Mejorando la detección de vulnerabilidades en sistemas de software

Explorando modelos de aprendizaje automático y nuevos conjuntos de datos para mejorar la seguridad.

2025-07-20T06:36:42+00:00 ― 9 minilectura

Recuperación de información Mejorando la Recuperación de Código con un Nuevo Benchmark

Un nuevo estándar aborda los desafíos en la recuperación de código para los desarrolladores.

2025-07-20T02:47:36+00:00 ― 9 minilectura

Computación y lenguaje Mejorando la Precisión Factual en Modelos de Lenguaje

Nuevos métodos mejoran la confiabilidad del texto generado por modelos de lenguaje.

2025-07-19T21:23:42+00:00 ― 5 minilectura

Computación y lenguaje Abordando las alucinaciones en los modelos de lenguaje

Una herramienta para identificar respuestas engañosas de modelos de lenguaje grandes.

2025-07-19T14:25:00+00:00 ― 7 minilectura

Computación y lenguaje Evaluando Modelos de Lenguaje Grandes: Claves Importantes

Descubre la importancia y los retos de evaluar el rendimiento de los LLM de manera efectiva.

2025-07-19T12:26:30+00:00 ― 6 minilectura

Ingeniería del software Evaluando Modelos de Fundación: Desafíos y Soluciones

Una mirada a las tablas de clasificación de modelos de fundación y sus problemas de evaluación.

2025-07-19T12:10:42+00:00 ― 9 minilectura

Computación y lenguaje Alineando las evaluaciones de IA con las preferencias humanas

El estudio revela el sesgo en las herramientas de evaluación de IA que favorecen respuestas más largas.

2025-07-19T00:11:48+00:00 ― 6 minilectura

Aprendizaje automático Mejorando la Evaluación de Modelos de Lenguaje con Métodos Estratificados

Un nuevo enfoque mejora la precisión de las evaluaciones de modelos de lenguaje.

2025-07-18T10:41:56+00:00 ― 9 minilectura

Computación y lenguaje Marco para la Evaluación de Lenguaje Diverso en PLN

Un nuevo método para seleccionar lenguajes diversos en la investigación de procesamiento del lenguaje natural.

2025-07-18T05:06:18+00:00 ― 8 minilectura

Computación y lenguaje Evaluando el razonamiento temporal en modelos de lenguaje

Un nuevo estándar evalúa las habilidades de razonamiento temporal de los modelos de lenguaje grandes.

2025-07-17T23:10:48+00:00 ― 6 minilectura

Aprendizaje automático Nuevos métodos en funciones de adquisición de optimización bayesiana

Enfoque innovador para crear funciones de adquisición efectivas para la optimización bayesiana.

2025-07-17T20:30:48+00:00 ― 7 minilectura

Inteligencia artificial Evaluando la resumición de historias con el conjunto de datos StorySumm

Un nuevo conjunto de datos mejora la precisión en la evaluación de resúmenes de historias generados por modelos de lenguaje.

2025-07-17T19:05:54+00:00 ― 6 minilectura

Inteligencia artificial Evaluando Agentes de Análisis de Datos con un Nuevo Punto de Referencia

Un nuevo método para evaluar agentes de análisis de datos para mejores percepciones comerciales.

2025-07-17T16:35:48+00:00 ― 7 minilectura

Robótica Mejorando la Interacción Humano-Robot a través de la Detección de Errores

Un desafío para mejorar la comprensión de los robots sobre las interacciones humanas.

2025-07-17T10:00:48+00:00 ― 8 minilectura

Computación y lenguaje Mejorando el Proceso de Revisión de Artículos Académicos

Un nuevo marco busca automatizar las revisiones de documentos para obtener mejores comentarios de calidad.

2025-07-16T23:36:42+00:00 ― 9 minilectura

Computación y lenguaje Avances en Modelos de Lenguaje Hebreo: DictaLM 2.0

Presentamos DictaLM 2.0 y DictaLM 2.0-Instruct para mejorar el procesamiento del idioma hebreo.

2025-07-16T18:44:24+00:00 ― 7 minilectura

Visión por Computador y Reconocimiento de Patrones Evaluando la Competencia Cultural en Modelos de Texto a Imagen

Este estudio analiza qué tan bien los modelos representan diversas culturas.

2025-07-16T14:31:36+00:00 ― 9 minilectura

Computación y lenguaje Avances en la generación de historias en árabe con LLMs

Un proyecto centrado en mejorar la generación de historias en árabe usando modelos avanzados.

2025-07-15T17:19:42+00:00 ― 7 minilectura

Computación y lenguaje Repensando los métodos de evaluación para los LLMs

Una nueva forma de evaluar modelos de lenguaje grandes para obtener mejores ideas sobre su rendimiento.

2025-07-15T16:32:18+00:00 ― 6 minilectura

Procesado de Audio y Voz Mejorando el reconocimiento de voz para el idioma polaco

La investigación presenta nuevos métodos para evaluar sistemas de reconocimiento de voz en polaco.

2025-07-14T16:44:10+00:00 ― 7 minilectura

Aprendizaje automático Datos Sintéticos: Una Solución para la Privacidad en Retail

Descubre cómo los datos sintéticos ayudan a los minoristas a proteger la privacidad de los clientes mientras obtienen información valiosa.

2025-07-13T11:22:24+00:00 ― 8 minilectura

Computación y lenguaje Evaluando la lectura de documentos con DocBench

DocBench evalúa sistemas basados en LLM para leer y responder a diferentes formatos de documentos.

2025-07-13T04:45:42+00:00 ― 5 minilectura

Computación y lenguaje Evaluando LLMs Usando Intérpretes de Código para Tareas de Ciencia de Datos

Un marco para evaluar las habilidades de los LLM en tareas relacionadas con datos usando intérpretes de código.

2025-07-13T01:20:18+00:00 ― 6 minilectura

Computación y lenguaje Abordando los estereotipos en los modelos de lenguaje grandes

Examinando el impacto de los LLM en los estereotipos sociales y formas de mejorar los resultados.

2025-07-12T10:51:18+00:00 ― 6 minilectura

Visión por Computador y Reconocimiento de Patrones Evaluando Modelos de Video-Texto: Un Nuevo Enfoque

Este estudio propone un nuevo método de evaluación para la comprensión de video-texto.

2025-07-12T01:06:42+00:00 ― 7 minilectura

Computación y lenguaje Desafíos al Evaluar Modelos Multimodales Grandes

Analizando la importancia y las dificultades de evaluar modelos de IA multimodal.

2025-07-11T21:09:42+00:00 ― 7 minilectura

Computación y lenguaje Avanzando en la Respuesta a Preguntas de Formato Largo con RobustQA

Un nuevo conjunto de datos para mejorar el rendimiento en preguntas y respuestas usando respuestas largas, hechas por humanos.

2025-07-11T09:50:18+00:00 ― 7 minilectura

Computación y lenguaje Modelos de Lenguaje Phi-3: Seguridad y Alineación

Los modelos Phi-3 se centran en la seguridad y en alinearse con los valores humanos.

2025-07-11T06:17:00+00:00 ― 7 minilectura

Computación y lenguaje Desafíos de la Predicción de Ítems Faltantes en LLMs

Examinando problemas con modelos de lenguaje grandes para predecir elementos faltantes en listas.

2025-07-10T22:38:48+00:00 ― 8 minilectura

Computación y lenguaje Evaluando Resúmenes Científicos: IA vs. Perspectiva Humana

Un estudio que compara modelos de IA y evaluaciones humanas de resúmenes científicos.

2025-07-10T21:34:47+00:00 ― 6 minilectura

Inteligencia artificial Evaluando Modelos de Lenguaje en Programación Científica

Un nuevo estándar evalúa modelos de lenguaje en desafíos de codificación científica en varios campos.

2025-07-10T17:22:48+00:00 ― 7 minilectura

Computación y lenguaje Check-Eval: Una Nueva Forma de Medir la Calidad del Texto

Check-Eval usa listas de verificación para mejorar la evaluación de la calidad del texto.

2025-07-10T10:16:12+00:00 ― 8 minilectura

Computación y lenguaje ProtoDep: Un Nuevo Enfoque para Detectar la Depresión en Redes Sociales

ProtoDep ofrece ideas claras para detectar la depresión a través del análisis de redes sociales.

2025-07-09T17:01:18+00:00 ― 9 minilectura

Aprendizaje automático Evaluando Circuitos de Redes Neuronales: Una Perspectiva Crítica

Este estudio analiza el rendimiento de los circuitos de redes neuronales y su fiabilidad.

2025-07-09T11:53:12+00:00 ― 5 minilectura

Visión por Computador y Reconocimiento de Patrones Avances en la Generación de Imágenes con LSReGen

Un nuevo marco para crear imágenes de alta calidad basadas en diseños específicos.

2025-07-09T09:54:42+00:00 ― 7 minilectura

Visión por Computador y Reconocimiento de Patrones HaloQuest: Un Nuevo Enfoque para la Alucinación en VLMs

HaloQuest aborda problemas de alucinación en modelos de lenguaje-visual con un nuevo conjunto de datos.

2025-07-08T23:14:48+00:00 ― 12 minilectura

Visión por Computador y Reconocimiento de Patrones Mejorando el seguimiento de puntos en videos

Un nuevo método mejora la precisión y eficiencia del seguimiento de puntos en el procesamiento de video.

2025-07-08T17:35:06+00:00 ― 6 minilectura