Últimos artículos para Evaluación de Datos

Informática sanitaria Evaluando la investigación biomédica: colaboración entre humanos y IA

Combinar revisores humanos con LLMs mejora las evaluaciones de investigación biomédica.

2025-08-06T10:09:00+00:00 ― 7 minilectura

Procesado de imagen y vídeo Desafío Grand Challenge 2023 de AAPM sobre Imágenes Médicas

Un desafío enfocado en modelos generativos profundos para la generación de imágenes médicas realistas.

2025-08-04T00:01:12+00:00 ― 11 minilectura

Aprendizaje automático Benchmarks Dinámicos para Evaluar Modelos de Lenguaje

Un nuevo sistema para evaluar modelos de lenguaje usando flujos de datos del mundo real.

2025-08-02T01:23:42+00:00 ― 6 minilectura

Computación y lenguaje Evaluando el conocimiento de sentido común en modelos de lenguaje

Un nuevo método para evaluar el razonamiento de sentido común en modelos de IA a través de tareas abiertas.

2025-08-01T10:15:12+00:00 ― 10 minilectura

Visión por Computador y Reconocimiento de Patrones Evaluando la calidad de las acciones en videos generados por IA

Nuevo conjunto de datos GAIA arroja luz sobre la calidad de la acción en contenido generado por IA.

2025-07-30T19:56:18+00:00 ― 9 minilectura

Aprendizaje automático Evaluación en línea eficiente de modelos generativos

Un nuevo método para evaluar modelos generativos con mínima generación de datos.

2025-07-30T12:41:48+00:00 ― 6 minilectura

Visión por Computador y Reconocimiento de Patrones Desafiando los límites de los modelos de visión-lenguaje

Una nueva prueba mide el razonamiento composicional en modelos avanzados.

2025-07-29T19:42:42+00:00 ― 9 minilectura

Computación y lenguaje Evaluando la alucinación en modelos de lenguaje grandes

Nuevo conjunto de datos ayuda a evaluar la precisión y fiabilidad del texto de IA.

2025-07-29T07:12:12+00:00 ― 8 minilectura

Computación y lenguaje RUPBench: Evaluando la Robustez en Modelos de Lenguaje

Un nuevo estándar evalúa cómo los modelos de lenguaje manejan los cambios de texto.

2025-07-28T07:06:30+00:00 ― 7 minilectura

Computación y lenguaje Evaluando Modelos de Lenguaje Grande Aumentados con Recuperación

Un conjunto de herramientas para evaluar el rendimiento de modelos aumentados por recuperación en dominios específicos.

2025-07-27T18:28:06+00:00 ― 12 minilectura

Visión por Computador y Reconocimiento de Patrones Presentamos VideoVista: Un nuevo estándar para la calidad de video

VideoVista ofrece una evaluación completa para modelos de preguntas y respuestas de video.

2025-07-27T13:35:48+00:00 ― 7 minilectura

Econometría Estimando Efectos de Tratamiento en Diseños Variados

Métodos para medir los efectos del tratamiento en diferentes grupos y periodos de tiempo.

2025-07-24T23:14:12+00:00 ― 5 minilectura

Visión por Computador y Reconocimiento de Patrones Un nuevo enfoque para evaluar modelos de texto a imagen

Este artículo presenta un nuevo método para evaluar modelos de texto a imagen de manera efectiva.

2025-07-24T20:25:18+00:00 ― 8 minilectura

Visión por Computador y Reconocimiento de Patrones Evaluando Grandes Modelos de Visión-Lenguaje con Dysca

Dysca presenta una nueva forma de evaluar el rendimiento de LVLM utilizando datos sintéticos.

2025-07-24T03:49:54+00:00 ― 8 minilectura

Computación y lenguaje Evaluando la Revisión de Creencias en Modelos de Lenguaje

Un nuevo método mide cómo los modelos de lenguaje adaptan sus creencias con nueva evidencia.

2025-07-22T18:07:30+00:00 ― 11 minilectura

Computación y lenguaje Evaluando agentes de IA en investigación biomédica

Un nuevo estándar para evaluar el rendimiento de los agentes de IA en literatura biomédica y gráficos de conocimiento.

2025-07-22T12:04:06+00:00 ― 6 minilectura

Visión por Computador y Reconocimiento de Patrones Abordando la equidad en los modelos de imagen médica

Presentamos FairMedFM para evaluar la equidad de los modelos de base en el sector salud.

2025-07-21T07:45:36+00:00 ― 7 minilectura

Visión por Computador y Reconocimiento de Patrones Evaluando alucinaciones en modelos de lenguaje de visión médica

Este estudio evalúa cómo los LVLMs médicos funcionan en medio de alucinaciones usando un nuevo conjunto de datos.

2025-07-21T04:12:18+00:00 ― 7 minilectura

Ingeniería del software Mejorando la detección de vulnerabilidades en sistemas de software

Explorando modelos de aprendizaje automático y nuevos conjuntos de datos para mejorar la seguridad.

2025-07-20T06:36:42+00:00 ― 9 minilectura

Aprendizaje automático Nuevo método para evaluar modelos generativos

FKEA ofrece una forma nueva de evaluar modelos generativos sin necesitar conjuntos de datos de referencia.

2025-07-20T04:38:12+00:00 ― 7 minilectura

Computación y lenguaje Evaluando la Traducción Automática: Avanzando Hacia la Evaluación a Nivel de Segmento

Una mirada a los beneficios de los métodos de evaluación a nivel de segmentos para la calidad de la traducción.

2025-07-19T23:14:18+00:00 ― 11 minilectura

Visión por Computador y Reconocimiento de Patrones Mejorando la detección de objetos en 3D para una conducción autónoma más segura

Nuevas métricas y el módulo EdgeHead mejoran la detección 3D para vehículos autónomos.

2025-07-19T11:54:54+00:00 ― 8 minilectura

Aprendizaje automático Mejorando la Evaluación de Modelos de Lenguaje con Métodos Estratificados

Un nuevo enfoque mejora la precisión de las evaluaciones de modelos de lenguaje.

2025-07-18T10:41:56+00:00 ― 9 minilectura

Computación y lenguaje Evaluando la confianza en el procesamiento de documentos largos

Mejorar cómo los modelos manejan la evidencia en documentos largos genera confianza en los usuarios.

2025-07-15T22:35:42+00:00 ― 5 minilectura

Computación y lenguaje Abordando el sesgo en los modelos de lenguaje con BiasAlert

BiasAlert mejora la detección de sesgos en modelos de lenguaje para lograr resultados de IA más justos.

2025-07-13T20:41:36+00:00 ― 6 minilectura

Computación y lenguaje Evaluando Modelos de Lenguaje: El Enfoque GraphEval

Un nuevo método para evaluar la precisión en los resultados de modelos de lenguaje.

2025-07-13T06:36:18+00:00 ― 4 minilectura

Visión por Computador y Reconocimiento de Patrones Evaluando la Alucinación en Modelos de Lenguaje Visual

Un nuevo referente aclara el tema de las alucinaciones en los modelos de lenguaje visual.

2025-07-10T21:59:18+00:00 ― 6 minilectura

Visión por Computador y Reconocimiento de Patrones El papel de la granularidad en la recuperación de imagen-texto

Este estudio resalta la importancia de la granularidad del conjunto de datos para mejorar los sistemas de recuperación de imagen-texto.

2025-07-09T13:35:54+00:00 ― 7 minilectura

Visión por Computador y Reconocimiento de Patrones Un nuevo método para evaluar la calidad de muestras generadas

Te presento una forma eficiente de evaluar la calidad de las muestras generadas usando puntajes de densidad latente.

2025-07-09T12:09:00+00:00 ― 10 minilectura

Visión por Computador y Reconocimiento de Patrones Nuevo estándar mejora la comprensión del lenguaje en video

Un nuevo estándar mejora la comprensión de los modelos sobre videos largos y lenguaje.

2025-07-09T01:29:06+00:00 ― 6 minilectura

Visión por Computador y Reconocimiento de Patrones HaloQuest: Un Nuevo Enfoque para la Alucinación en VLMs

HaloQuest aborda problemas de alucinación en modelos de lenguaje-visual con un nuevo conjunto de datos.

2025-07-08T23:14:48+00:00 ― 12 minilectura

Computación y lenguaje Mejorando los estándares de Extracción Abierta de Información

Un nuevo estándar busca mejorar las evaluaciones de los sistemas OIE para obtener mejores ideas sobre su rendimiento.

2025-07-08T12:34:54+00:00 ― 6 minilectura

Visión por Computador y Reconocimiento de Patrones Avanzando la Evaluación de Modelos de Lenguaje Visual con el Benchmark VisMin

Un nuevo estándar para probar modelos de lenguaje visual con cambios mínimos en imágenes y subtítulos.

2025-07-08T11:08:00+00:00 ― 7 minilectura

Computación y lenguaje Mejorando la confianza en los modelos de lenguaje a través de la abstención

Este estudio resalta la necesidad de que los LLMs sepan cuándo abstenerse.

2025-07-08T00:36:00+00:00 ― 7 minilectura

Metodología Evaluando Pronósticos Probabilísticos: Un Nuevo Marco

Las reglas de puntuación adecuadas mejoran la evaluación de pronósticos probabilísticos en varios campos.

2025-07-07T20:11:36+00:00 ― 9 minilectura

Metodología Analizando los efectos del tratamiento en ensayos por grupos

Un marco para estimar mejor los efectos del tratamiento en experimentos de grupos emparejados aleatorizados.

2025-07-07T12:41:00+00:00 ― 7 minilectura

Recuperación de información Evaluando Sistemas de Recuperación de Información con Anotaciones de IA

Usando marcas de relevancia generadas por IA para evaluar de manera eficiente los sistemas de recuperación de información.

2025-07-06T13:19:08+00:00 ― 8 minilectura

Computación y lenguaje Abordando la filtración de temas en la verificación de autoría

Un nuevo método mejora la precisión en la evaluación de la verificación de autoría al reducir la filtración de temas.

2025-07-06T02:38:54+00:00 ― 9 minilectura

Computación y lenguaje Evaluando Sistemas de Generación Aumentada por Recuperación

Un nuevo marco mejora la evaluación de sistemas RAG en dominios especializados.

2025-07-03T13:09:36+00:00 ― 10 minilectura

Computación y lenguaje Mejorando los Métodos de Evaluación para la Comprensión Lectora de Máquinas

Nuevos métodos ofrecen una mejor evaluación de la comprensión del lenguaje en los modelos.

2025-06-29T22:47:12+00:00 ― 7 minilectura