Matthieu Geist

Novo modelo melhora a criação de música usando o feedback dos usuários.

2025-08-25T21:41:55+00:00 ― 9 min ler

Um novo método melhora o aprendizado de estratégias para agentes em sistemas multiagente.

2025-08-19T20:45:30+00:00 ― 7 min ler

Apresentando o ExpectRL pra lidar com a superestimação no Aprendizado por Reforço usando expectis.

2025-08-01T08:48:18+00:00 ― 8 min ler

Um novo padrão pra testar métodos de aprendizado por reforço robustos em vários ambientes.

2025-07-29T22:12:48+00:00 ― 7 min ler

Pesquisadores melhoram o aprendizado por reforço com um novo framework para ambientes incertos.

2025-07-29T22:04:54+00:00 ― 7 min ler

O Gradiente de Política Contrastivo oferece uma maneira mais eficiente de aprimorar modelos de linguagem.

2025-07-23T09:16:00+00:00 ― 8 min ler

Uma olhada em como o IRL melhora o desempenho e a diversidade dos modelos de linguagem.

2025-06-11T05:00:32+00:00 ― 10 min ler