Últimos artículos para Evaluación

Ingeniería del software Mejorando la categorización de acciones para desarrolladores

Una herramienta mejora la categorización de acciones, ayudando a los desarrolladores a ser más eficientes en los flujos de trabajo.

2025-07-08T13:38:06+00:00 ― 6 minilectura

Optimización y control Avances en técnicas para minimizar el estrés

Un nuevo método mejora el diseño estructural al minimizar el estrés de manera efectiva.

2025-07-08T04:02:17+00:00 ― 7 minilectura

Computación y lenguaje Abordando las alucinaciones en los modelos de lenguaje

Un nuevo estándar evalúa los LLMs por su precisión fáctica.

2025-07-07T18:08:54+00:00 ― 7 minilectura

Computación y lenguaje Nuevo método para evaluar conjuntos de títulos en colecciones de documentos

Un nuevo enfoque para evaluar conjuntos de títulos más rápido sin referencias humanas.

2025-07-07T16:26:12+00:00 ― 8 minilectura

Computación y lenguaje Evaluando Agentes Persona: Un Nuevo Marco

Un enfoque nuevo para evaluar agentes de persona usando modelos de lenguaje.

2025-07-07T06:17:54+00:00 ― 7 minilectura

Aprendizaje automático Abordando la equidad en modelos de aprendizaje automático

Evaluando modelos de aprendizaje automático para asegurar la equidad entre diferentes poblaciones.

2025-07-07T03:30:16+00:00 ― 7 minilectura

Computación y lenguaje Dallah: Una nueva herramienta para los dialectos árabes

Dallah apoya dialectos árabes, mejorando la comunicación en texto e imágenes.

2025-07-07T01:33:30+00:00 ― 7 minilectura

Computación y lenguaje Evaluando Modelos de Lenguaje: Un Nuevo Toolkit

Un kit de herramientas diseñado para mejorar la evaluación de las interacciones entre humanos y bots.

2025-07-06T18:11:06+00:00 ― 6 minilectura

Recuperación de información Evaluando Sistemas de Recuperación de Información con Anotaciones de IA

Usando marcas de relevancia generadas por IA para evaluar de manera eficiente los sistemas de recuperación de información.

2025-07-06T13:19:08+00:00 ― 8 minilectura

Aprendizaje automático Nuevo Método de Referencia para Evaluar Algoritmos de Aprendizaje por Refuerzo

Un enfoque novedoso mejora las comparaciones de algoritmos de aprendizaje por refuerzo en diferentes entornos.

2025-07-06T13:03:00+00:00 ― 9 minilectura

Sonido Evaluando la comprensión musical con el benchmark MuChoMusic

Un nuevo estándar para evaluar modelos que analizan música y lenguaje.

2025-07-06T05:29:45+00:00 ― 7 minilectura

Inteligencia artificial Evaluando Modelos de Lenguaje Grandes: Un Enfoque Completo

Explora diferentes marcos y métodos para evaluar modelos de lenguaje grandes de manera efectiva.

2025-07-06T02:07:18+00:00 ― 8 minilectura

Aprendizaje automático Evaluando Métodos de Interpretabilidad para Decisiones de IA

Un nuevo enfoque para evaluar la fiabilidad de los métodos que explican la toma de decisiones de la IA.

2025-07-06T01:51:30+00:00 ― 9 minilectura

Multimedia AxiomVision: Transformando la Analítica de Video para Entornos Dinámicos

AxiomVision ofrece un nuevo enfoque para el análisis de video, mejorando el rendimiento en condiciones cambiantes.

2025-07-05T14:40:00+00:00 ― 7 minilectura

Aprendizaje automático Evaluando la IA Explicable: El Auge de BEExAI

Una nueva herramienta para evaluar métodos de explicabilidad en sistemas de IA.

2025-07-05T10:43:00+00:00 ― 10 minilectura

Aprendizaje automático Estandarizando la Evaluación del Aprendizaje de Puertas Traseras: BackdoorBench

BackdoorBench ofrece un enfoque unificado para evaluar los métodos de aprendizaje de puerta trasera en redes neuronales profundas.

2025-07-05T09:47:42+00:00 ― 9 minilectura

Computación y lenguaje Evaluando las capacidades Zero-Shot de los LLMs multimodales

Una evaluación del rendimiento en cero disparos de los LLMs multimodales en varias tareas.

2025-07-05T08:36:36+00:00 ― 6 minilectura

Interacción Persona-Ordenador Herramienta impulsada por IA agiliza la traducción de cuestionarios

Una nueva herramienta mejora el proceso de traducir cuestionarios entre idiomas.

2025-07-04T18:07:36+00:00 ― 4 minilectura

Computación y lenguaje Evaluando el razonamiento lógico en modelos de lenguaje grandes

El estudio evalúa las habilidades de razonamiento de los modelos de lenguaje grandes con preguntas complejas.

2025-07-04T17:20:12+00:00 ― 6 minilectura

Aplicaciones Desafío de Predicción VIEWS: Pronosticando Fatalidades por Conflictos

Un desafío para predecir muertes en conflictos armados con un enfoque en la incertidumbre.

2025-07-04T02:04:24+00:00 ― 8 minilectura

Ciencia de materiales Aprovechando los LLMs para Datos Estructurados en Ciencia de Materiales

Descubre cómo los LLMs pueden facilitar la extracción de datos en la ciencia de materiales.

2025-07-04T01:40:18+00:00 ― 9 minilectura

Interacción Persona-Ordenador Integrando LLMs en las Prácticas de Ingeniería del Conocimiento

Explorando el papel y los desafíos de los LLMs en la ingeniería del conocimiento.

2025-07-03T12:45:54+00:00 ― 8 minilectura

Computación y lenguaje Mejorando las respuestas de IA con generación aumentada por recuperación

Un nuevo marco mejora los modelos de lenguaje al integrar datos externos para mayor precisión.

2025-07-02T02:24:00+00:00 ― 6 minilectura

Criptografía y seguridad Comidds: Un nuevo recurso para conjuntos de datos de detección de intrusiones

Comidds ofrece información actualizada sobre conjuntos de datos para la investigación en detección de intrusiones.

2025-07-02T01:44:30+00:00 ― 6 minilectura

Recuperación de información Taller sobre Modelos de Lenguaje Grande en la Recuperación de Información

Los investigadores discuten el impacto de los LLM en la evaluación de sistemas de recuperación de información.

2025-06-30T04:26:54+00:00 ― 7 minilectura

Recuperación de información El papel de los asistentes de codificación en el desarrollo moderno

Descubre cómo los asistentes de codificación ayudan a los desarrolladores a mejorar su eficiencia en la programación.

2025-06-30T03:39:30+00:00 ― 6 minilectura

Computación y lenguaje Mejorando los Métodos de Evaluación para la Comprensión Lectora de Máquinas

Nuevos métodos ofrecen una mejor evaluación de la comprensión del lenguaje en los modelos.

2025-06-29T22:47:12+00:00 ― 7 minilectura

Computación y lenguaje Mejorando la fusión de modelos con ProFuser

Un nuevo método para combinar modelos de lenguaje de manera más efectiva.

2025-06-29T22:23:30+00:00 ― 7 minilectura

Procesado de imagen y vídeo Avances en la detección temprana del cáncer oral

Utilizando aprendizaje profundo para mejorar la detección temprana del carcinoma de células escamosas orales.

2025-06-29T18:01:45+00:00 ― 7 minilectura

Ingeniería del software Abordando la analizabilidad en software cuántico híbrido

Esta investigación se centra en mejorar la calidad del software cuántico híbrido a través de la analizabilidad.

2025-06-28T16:32:21+00:00 ― 7 minilectura

Visión por Computador y Reconocimiento de Patrones Evaluando MLLMs con MathScape

MathScape mejora la evaluación de MLLMs con problemas matemáticos visuales y textuales.

2025-06-28T00:02:42+00:00 ― 6 minilectura

Computación y lenguaje Aprendizaje inductivo con modelos de lenguaje grandes

Explorando el uso de LLMs en programación lógica inductiva.

2025-06-27T17:43:30+00:00 ― 7 minilectura

Computación y lenguaje Generando discusiones realistas en línea con datos sintéticos

Un método estructurado para crear conversaciones sintéticas usando modelos de lenguaje.

2025-06-27T13:46:30+00:00 ― 8 minilectura

Computación y lenguaje Nuevo estándar evalúa el conocimiento legal en modelos de lenguaje árabe

ArabLegalEval evalúa el rendimiento de los LLM en el manejo de información legal en árabe.

2025-06-27T05:52:30+00:00 ― 7 minilectura

Recuperación de información VERA: Un Marco para Evaluar Sistemas RAG

Descubre cómo VERA mejora la precisión y eficiencia de la evaluación del sistema RAG.

2025-06-27T04:33:30+00:00 ― 12 minilectura

Aprendizaje automático Evaluando Modelos de Lenguaje Grandes para Uso en el Mundo Real

Un nuevo enfoque para evaluar LLMs con conjuntos de evaluación diversos.

2025-06-26T22:53:48+00:00 ― 7 minilectura

Computación y lenguaje Abordando el sesgo de formato en los modelos de lenguaje

Este artículo examina cómo el sesgo de formato afecta el rendimiento de los modelos de lenguaje y sugiere estrategias de mejora.

2025-06-26T20:23:42+00:00 ― 7 minilectura

Recuperación de información Hindi-BEIR: Un estándar para la recuperación de información en hindi

Hindi-BEIR busca mejorar los sistemas de recuperación de información para contenido en hindi.

2025-06-26T06:50:00+00:00 ― 6 minilectura

Computación y lenguaje Alineando modelos de lenguaje con comunidades en línea

Explorando métodos para alinear LLMs con grupos en línea para obtener mejores ideas.

2025-06-26T04:59:24+00:00 ― 8 minilectura

Visión por Computador y Reconocimiento de Patrones Evaluando la competencia en lenguaje de señas: una nueva herramienta

Una herramienta diseñada para evaluar las habilidades en lenguaje de señas a través del análisis de movimiento natural.

2025-06-25T19:14:48+00:00 ― 8 minilectura