Matthieu Geist

Nuevo modelo mejora la creación de música usando la retroalimentación de los usuarios.

2025-08-25T21:41:55+00:00 ― 9 minilectura

Un nuevo método mejora el aprendizaje de estrategias para agentes en sistemas multiagente.

2025-08-19T20:45:30+00:00 ― 7 minilectura

Presentamos ExpectRL para abordar la sobreestimación en el Aprendizaje por Refuerzo a través de expectiles.

2025-08-01T08:48:18+00:00 ― 9 minilectura

Un nuevo estándar para probar métodos de aprendizaje por refuerzo robustos en diferentes entornos.

2025-07-29T22:12:48+00:00 ― 7 minilectura

Los investigadores mejoran el aprendizaje por refuerzo con un nuevo marco para entornos inciertos.

2025-07-29T22:04:54+00:00 ― 7 minilectura

El Gradiente de Política Contrastiva ofrece una forma más eficiente de mejorar los modelos de lenguaje.

2025-07-23T09:16:00+00:00 ― 9 minilectura

Una mirada a cómo IRL mejora el rendimiento y la diversidad de los modelos de lenguaje.

2025-06-11T05:00:32+00:00 ― 10 minilectura