Últimos artículos para Referencia

Computación y lenguaje Evaluando Modelos de Lenguaje Grandes Multimodales

Nuevos benchmarks revelan desafíos para los MLLMs en tareas del mundo real con contextos largos.

2025-08-15T10:16:00+00:00 ― 9 minilectura

Ingeniería del software Examinando el sesgo multilingüe en modelos de generación de código

Este artículo explora el sesgo en los modelos de generación de código en diferentes lenguajes.

2025-08-15T03:25:12+00:00 ― 10 minilectura

Computación y lenguaje Entendiendo las alucinaciones de código en modelos de lenguaje

Una visión general de las alucinaciones de código en los LLMs y su impacto en el desarrollo de software.

2025-08-15T01:58:18+00:00 ― 8 minilectura

Visión por Computador y Reconocimiento de Patrones Presentamos Wake Vision: Un Nuevo Conjunto de Datos para TinyML

Wake Vision mejora la detección de personas para TinyML con un montón de datos.

2025-08-14T17:24:48+00:00 ― 9 minilectura

Computación y lenguaje Desafíos y Oportunidades en la Explicabilidad de la Generación de Texto con IA

Este documento habla sobre la necesidad de que los modelos de generación de texto en IA sean explicables.

2025-08-11T02:54:30+00:00 ― 7 minilectura

Computación y lenguaje Evaluando la toxicidad en modelos de lenguaje multilingües

Nueva evaluación mide la toxicidad en modelos de lenguaje grandes en varios idiomas.

2025-08-10T21:30:36+00:00 ― 9 minilectura

Finanzas computacionales Usando SSD para Construir Portafolios Más Fuertes

Aprende cómo la dominancia estocástica de segundo orden puede mejorar tu estrategia de inversión.

2025-08-09T19:12:57+00:00 ― 7 minilectura

Inteligencia artificial Evaluando LLMs en Modelado Matemático con Mamo

Un nuevo estándar evalúa las habilidades de los LLMs en procesos de modelado matemático.

2025-08-09T14:10:24+00:00 ― 6 minilectura

Computación Neuronal y Evolutiva Mejorando la Evolución Diferencial con GPUs

Explorando cómo las GPUs mejoran la eficiencia de los algoritmos de Evolución Diferencial.

2025-08-06T19:01:24+00:00 ― 6 minilectura

Visión por Computador y Reconocimiento de Patrones Avances en el razonamiento multimodal de cadena de pensamientos

Nuevo estándar busca mejorar la comprensión de texto e imágenes por parte de la IA.

2025-08-06T17:50:18+00:00 ― 9 minilectura

Aprendizaje automático WeiPer: Un Nuevo Método para la Detección de OOD

WeiPer mejora la detección de datos fuera de distribución en modelos de aprendizaje automático usando ajustes de peso.

2025-08-06T07:49:54+00:00 ― 9 minilectura

Inteligencia artificial Evaluando Modelos de Lenguaje Grandes en Interacciones Matemáticas de Varios Turnos

Este estudio mide el rendimiento de los LLMs en diálogos matemáticos complejos.

2025-08-05T07:12:36+00:00 ― 9 minilectura

Aprendizaje automático Mejorando las Predicciones de Enlaces con Explicaciones Claras

LinkLogic proporciona claridad y confiabilidad para la predicción de enlaces en grafos de conocimiento.

2025-08-03T12:56:42+00:00 ― 7 minilectura

Computación y lenguaje Avanzando en la Autoformalización con Lean 4

Nuevos métodos y puntos de referencia buscan simplificar la formalización de las matemáticas a través de Lean 4.

2025-08-03T08:59:42+00:00 ― 8 minilectura

Aprendizaje automático Los LLMs tienen problemas con tareas básicas de razonamiento

Pruebas recientes muestran que los LLMs tienen debilidades en el razonamiento simple a pesar de sus altas puntuaciones en los benchmarks.

2025-08-02T09:01:54+00:00 ― 6 minilectura

Aprendizaje automático Benchmarks Dinámicos para Evaluar Modelos de Lenguaje

Un nuevo sistema para evaluar modelos de lenguaje usando flujos de datos del mundo real.

2025-08-02T01:23:42+00:00 ― 6 minilectura

Aprendizaje automático Abordando el ruido en las etiquetas en redes neuronales de grafos

Un nuevo estándar ayuda a mejorar el rendimiento de las GNN frente a los desafíos del ruido en las etiquetas.

2025-08-01T13:01:06+00:00 ― 9 minilectura

Robótica Bench2Drive: Un Nuevo Estándar para Probar Sistemas de Conducción Autónoma

Bench2Drive ofrece un método de evaluación justo para tecnologías de conducción autónoma.

2025-08-01T06:02:24+00:00 ― 8 minilectura

Inteligencia artificial Abordando problemas mal definidos en modelos de lenguaje

Nuevos métodos mejoran el rendimiento de los modelos de lenguaje en tareas de razonamiento complejo.

2025-07-31T22:55:48+00:00 ― 8 minilectura

Visión por Computador y Reconocimiento de Patrones Evaluando el rendimiento de los prompts en la generación y recuperación de imágenes

Un estudio presenta un nuevo estándar para el rendimiento de las indicaciones en la creación y recuperación de imágenes.

2025-07-31T18:43:00+00:00 ― 13 minilectura

Aprendizaje automático Nuevas ideas sobre el rendimiento del escalado de modelos de lenguaje

Analizar los modelos existentes revela información sobre las tendencias de rendimiento de los modelos de lenguaje a medida que aumenta su tamaño.

2025-07-31T14:57:12+00:00 ― 10 minilectura

Aprendizaje automático Evaluando las habilidades de programación en Java de los LLMs

Un nuevo estándar para evaluar LLMs para tareas de programación en Java.

2025-07-31T06:52:00+00:00 ― 8 minilectura

Visión por Computador y Reconocimiento de Patrones Mejorando los subtítulos de video con comprensión causal

Un nuevo método crea mejores subtítulos para videos al enfocarse en narrativas y causalidad.

2025-07-31T02:39:12+00:00 ― 6 minilectura

Criptografía y seguridad Evaluando el Papel de los Modelos de Lenguaje Grande en la Detección de Vulnerabilidades

Una nueva referencia prueba la capacidad de los LLMs para encontrar vulnerabilidades de software.

2025-07-30T14:48:12+00:00 ― 7 minilectura

Computación y lenguaje Nuevo estándar evalúa modelos de lenguaje multilingües

Un nuevo estándar evalúa el rendimiento de modelos multilingües en tareas de recuperación semántica.

2025-07-30T12:18:06+00:00 ― 9 minilectura

Visión por Computador y Reconocimiento de Patrones CMC-Bench: Un Nuevo Estándar en Compresión de Imágenes

Descubre cómo CMC-Bench está transformando las técnicas de compresión de imágenes.

2025-07-30T02:46:45+00:00 ― 7 minilectura

Ingeniería del software DafnyBench: Mejorando la Verificación de Software con Aprendizaje Automático

DafnyBench mide herramientas de verificación de software, abriendo el camino para una programación confiable.

2025-07-29T23:23:54+00:00 ― 6 minilectura

Visión por Computador y Reconocimiento de Patrones Evaluando la comprensión de video en modelos de lenguaje multimodal

Un nuevo estándar busca evaluar MLLMs en la comprensión de videos sobre múltiples temas.

2025-07-29T22:20:42+00:00 ― 8 minilectura

Visión por Computador y Reconocimiento de Patrones Desafiando los límites de los modelos de visión-lenguaje

Una nueva prueba mide el razonamiento composicional en modelos avanzados.

2025-07-29T19:42:42+00:00 ― 9 minilectura

Aprendizaje automático Presentamos GuardAgents: una nueva capa de seguridad para LLMs

Un marco para mejorar la seguridad en los agentes LLM en varias aplicaciones.

2025-07-29T07:43:48+00:00 ― 9 minilectura

Computación y lenguaje Evaluando el razonamiento temporal en modelos de lenguaje grandes

Un nuevo estándar evalúa qué tan bien los modelos entienden el tiempo y los eventos.

2025-07-29T07:20:06+00:00 ― 8 minilectura

Aprendizaje automático Midiendo la Varianza en los Benchmarks de Modelos de Lenguaje

Este artículo examina métodos para evaluar la variabilidad en los criterios de evaluación de modelos de lenguaje.

2025-07-28T23:26:06+00:00 ― 9 minilectura

Computación y lenguaje Avanzando la IA para los idiomas del sudeste asiático

SEACrowd busca mejorar la representación de IA para los idiomas y culturas del sudeste asiático.

2025-07-28T21:03:54+00:00 ― 8 minilectura

Visión por Computador y Reconocimiento de Patrones Avances en la detección de manipulación de imágenes

Un nuevo referente ayuda a los investigadores a mejorar los métodos de detección de integridad de imágenes.

2025-07-28T11:35:06+00:00 ― 7 minilectura

Inteligencia artificial Evaluando LLMs con un nuevo estándar para problemas de búsqueda

Un estudio sobre cómo mejorar las habilidades de resolución de problemas de los LLMs usando un nuevo marco.

2025-07-28T01:18:54+00:00 ― 9 minilectura

Aprendizaje automático Avanzando los estándares de evaluación de modelos de lenguaje

Un nuevo método mejora las pruebas para modelos de lenguaje usando datos reales de usuarios.

2025-07-27T21:06:06+00:00 ― 6 minilectura

Computación y lenguaje Evaluando el desaprendizaje en modelos de lenguaje

Nuevos métodos revelan desafíos para desaprender conocimiento de los modelos de lenguaje.

2025-07-27T17:24:54+00:00 ― 7 minilectura

Computación y lenguaje El impacto de los modelos de lenguaje de largo contexto

Los modelos de lenguaje de largo contexto simplifican tareas complejas y mejoran la interacción con la IA.

2025-07-27T08:59:18+00:00 ― 9 minilectura

Computación y lenguaje Evaluando el razonamiento en modelos de lenguaje

Un nuevo estándar evalúa las habilidades de razonamiento en modelos de lenguaje.

2025-07-26T22:11:30+00:00 ― 10 minilectura

Bases de datos La Evolución de las Bases de Datos GPU

Examinando los avances en la tecnología de bases de datos con GPU y su rendimiento.

2025-07-26T19:49:18+00:00 ― 11 minilectura