Últimos artículos para Evaluación de Datos

Procesado de imagen y vídeo Mejorando la Evaluación de Imágenes de Microscopía con MicroSSIM

MicroSSIM mejora la evaluación de la calidad de imagen en microscopía para obtener mejores resultados científicos.

2025-06-29T12:21:40+00:00 ― 7 minilectura

Computación y lenguaje Evaluando Sistemas de Generación Aumentada por Recuperación

Un nuevo marco para evaluar el rendimiento de los sistemas RAG.

2025-06-27T07:51:00+00:00 ― 9 minilectura

Computación y lenguaje Nuevo estándar evalúa el conocimiento legal en modelos de lenguaje árabe

ArabLegalEval evalúa el rendimiento de los LLM en el manejo de información legal en árabe.

2025-06-27T05:52:30+00:00 ― 7 minilectura

Aprendizaje automático Abordando las alucinaciones de relación en IA multimodal

Nuevo estándar aborda las alucinaciones de relación en modelos de lenguaje multimodal grandes.

2025-06-26T06:26:18+00:00 ― 6 minilectura

Recuperación de información Nuevo método para evaluar respuestas de salud de modelos de lenguaje

Un enfoque novedoso para evaluar las respuestas relacionadas con la salud generadas por modelos de IA.

2025-06-25T15:09:54+00:00 ― 7 minilectura

Computación y lenguaje Evaluando Chatbots: El Auge de Soda-Eval

Soda-Eval establece nuevos estándares para los métodos de evaluación de chatbots.

2025-06-25T03:58:24+00:00 ― 7 minilectura

Computación y lenguaje Avances en Modelos de Lenguaje Médico con MedS-Bench

Un nuevo estándar y conjunto de datos mejoran la evaluación de modelos de lenguaje médico.

2025-06-23T19:42:54+00:00 ― 7 minilectura

Recuperación de información Evaluando el Soporte de Citas en la Generación de Texto

Un nuevo enfoque para evaluar cómo las citas apoyan declaraciones en el texto generado.

2025-06-23T17:04:54+00:00 ― 7 minilectura

Inteligencia artificial Evaluando Métricas de Modelos de Lenguaje: Un Análisis Profundo

Los investigadores analizan la fiabilidad de las métricas para la seguridad de los modelos de lenguaje.

2025-06-23T14:50:36+00:00 ― 7 minilectura

Inteligencia artificial Nuevo estándar para evaluar la generación de código en LLMs

Un benchmark multidominio evalúa las habilidades de generación de código de los LLM en varios campos.

2025-06-23T06:56:36+00:00 ― 8 minilectura

Recuperación de información Mejorando las Respuestas de IA en Contextos Legales con HyPA-RAG

Un nuevo sistema optimiza las respuestas de IA para campos legales, enfocándose en la Ley Local 144 de la ciudad de Nueva York.

2025-06-20T13:38:12+00:00 ― 7 minilectura

Visión por Computador y Reconocimiento de Patrones Evaluando técnicas de coincidencia de imágenes para reconstrucción en 3D

Un estudio sobre la efectividad de los métodos de coincidencia de imágenes en diferentes escenarios.

2025-06-20T03:29:54+00:00 ― 8 minilectura

Computación y lenguaje Desafíos de los Modelos de Lenguaje Visual Multilingües

Examinando la efectividad de los LVLMs para generar explicaciones de arte multilingües.

2025-06-18T18:03:18+00:00 ― 9 minilectura

Visión por Computador y Reconocimiento de Patrones Evaluando las habilidades de categorización en modelos de IA

Este estudio evalúa qué tan bien la IA categoriza imágenes en comparación con los humanos.

2025-06-18T17:08:00+00:00 ― 8 minilectura

Inteligencia artificial Nuevo Referente para Evaluar Modelos que Usan API

Un nuevo método de evaluación para modelos de lenguaje grandes usando llamadas API anidadas.

2025-06-17T11:46:18+00:00 ― 6 minilectura

Procesado de Audio y Voz OpenACE: Un Nuevo Estándar para la Evaluación de Códecs de Audio

OpenACE ofrece un punto de referencia justo para evaluar códecs de audio en distintas condiciones.

2025-06-13T14:58:55+00:00 ― 6 minilectura

Computación y lenguaje Evaluando similitudes de imágenes: Métodos y modelos

Aprende a evaluar y comparar imágenes de manera efectiva.

2025-06-10T11:30:06+00:00 ― 5 minilectura

Computación y lenguaje Mejorando Modelos de Lenguaje con el Sistema VERA

VERA mejora la precisión y relevancia de las respuestas de los modelos de lenguaje.

2025-06-10T08:20:30+00:00 ― 6 minilectura

Computación y lenguaje RAGProbe: Facilitando las evaluaciones del sistema RAG

RAGProbe automatiza la evaluación de sistemas RAG, mejorando su rendimiento y fiabilidad.

2025-06-07T04:38:00+00:00 ― 7 minilectura

Informática sanitaria Evaluando Modelos de Lenguaje en Investigación Clínica

Un nuevo conjunto de datos mejora la evaluación de los modelos de lenguaje en la precisión de ensayos clínicos.

2025-06-05T11:49:00+00:00 ― 8 minilectura

Aprendizaje automático Nuevo conjunto de datos para mejorar el aprendizaje visual de la IA

Un conjunto de datos ayuda a los sistemas de IA a aprender mejor de visuales que distraen.

2025-06-05T09:18:54+00:00 ― 8 minilectura

Inteligencia artificial Evaluando el seguimiento de instrucciones en conversaciones de múltiples turnos

Un estudio sobre cómo los modelos siguen instrucciones durante diálogos complejos.

2025-06-05T06:40:54+00:00 ― 7 minilectura

Computación y lenguaje HealthQ: Transformando la Pregunta de IA en el Cuidado de Salud

HealthQ evalúa la capacidad de la IA para hacer preguntas en el cuidado de pacientes.

2025-06-03T21:45:54+00:00 ― 9 minilectura

Computación y lenguaje Mejorando la descomposición de preguntas visuales en modelos multimodales

Explorando métodos para mejorar los modelos multimodales en desglosar preguntas visuales.

2025-06-03T18:52:06+00:00 ― 7 minilectura

Inteligencia artificial Evaluación Avanzada de Memoria para Agentes LLM

Presentamos MemSim, una herramienta para evaluar la efectividad de la memoria en asistentes de modelos de lenguaje.

2025-06-03T01:21:24+00:00 ― 6 minilectura

Sonido Avanzando en el procesamiento multi-audio con MALLM

Presentamos un nuevo modelo y benchmark para evaluar tareas de audio múltiple.

2025-05-31T19:17:15+00:00 ― 7 minilectura

Computación y lenguaje Evaluando la Generabilidad del Código: Un Nuevo Enfoque

Examinamos cómo verificar si se pueden responder efectivamente las preguntas de codificación.

2025-05-27T10:23:15+00:00 ― 6 minilectura

Visión por Computador y Reconocimiento de Patrones Presentamos EVQAScore: Un nuevo método para Video QA

EVQAScore mejora la evaluación de QA en videos de manera eficiente y efectiva.

2025-05-25T13:21:54+00:00 ― 7 minilectura

Aprendizaje automático Mejorando la IA Multimodal con el Método ECIF

Nuevo método ECIF mejora el rendimiento de modelos de IA multimodal a través de una mejor evaluación de datos.

2025-05-20T01:34:40+00:00 ― 4 minilectura

Recuperación de información Evaluando Modelos de Recuperación de Documentos para el Idioma Checo

Los investigadores evalúan varios modelos para buscar en checo, destacando fortalezas y debilidades.

2025-05-18T20:26:40+00:00 ― 6 minilectura

Bioinformática Navegando por el Mundo del Análisis de Células Individuales

Descubre cómo el análisis de una sola célula ayuda a desvelar los misterios del comportamiento celular.

2025-05-18T19:15:32+00:00 ― 9 minilectura

Visión por Computador y Reconocimiento de Patrones IA en Radiología: El Auge de ReXrank

ReXrank ofrece una nueva forma de evaluar herramientas de IA para la generación de informes de radiología.

2025-05-12T23:00:00+00:00 ― 8 minilectura

Visión por Computador y Reconocimiento de Patrones Nuevo método mejora la evaluación del mapa de atribución

Una nueva forma de evaluar los modelos de toma de decisiones de IA usando mapas de atribución.

2025-05-12T12:26:40+00:00 ― 8 minilectura

Computación y lenguaje Evaluando el sesgo en la investigación biomédica

Aprende a medir el sesgo en estudios biomédicos para tener datos de salud confiables.

2025-05-05T03:32:00+00:00 ― 6 minilectura

Interacción Persona-Ordenador Retos en la Evaluación de Chatbots: Votos de Usuarios en Peligro

Examinando problemas en las evaluaciones de chatbots impulsadas por la comunidad y maneras de mejorarlas.

2025-04-11T18:18:00+00:00 ― 6 minilectura

Computación y lenguaje Enfrentando respuestas erróneas de IA con SciFaultyQA

Una nueva iniciativa pone a prueba la capacidad de la IA para manejar preguntas científicas sin sentido.

2025-03-03T03:20:15+00:00 ― 8 minilectura

Computación y lenguaje MT-Lens: Elevando la Evaluación de Traducción Automática

MT-Lens ofrece un conjunto completo de herramientas para mejorar las evaluaciones de traducción automática.

2025-02-28T19:09:45+00:00 ― 7 minilectura

Computación y lenguaje OmniEval: Mejorando el rendimiento de RAG en Finanzas

El nuevo estándar OmniEval mejora la evaluación de sistemas RAG en finanzas.

2025-02-24T18:03:36+00:00 ― 9 minilectura

Computación y lenguaje RAG-RewardBench: Alineando la IA con las Necesidades Humanas

Una nueva herramienta mejora las respuestas de la IA para que coincidan mejor con las preferencias humanas.

2025-02-17T07:06:09+00:00 ― 5 minilectura

Visión por Computador y Reconocimiento de Patrones Repensando ImageNet: Un Enfoque Multietiqueta

Los investigadores piden un cambio hacia evaluaciones de múltiples etiquetas en visión por computadora.

2025-01-27T15:57:36+00:00 ― 8 minilectura