Debmalya Mandal

Desenvolvendo algoritmos pra melhorar o aprendizado por reforço usando feedback humano, mesmo com dados corrompidos.

2025-09-09T15:24:24+00:00 ― 7 min ler

Esse estudo apresenta um método pra distribuir recompensas em ambientes desconhecidos.

2025-09-09T09:44:42+00:00 ― 7 min ler

Uma nova abordagem para o aprendizado por reforço considera as mudanças no ambiente causadas pelas ações do agente.

2025-09-07T14:09:48+00:00 ― 7 min ler

Examinando o impacto da corrupção de dados nas estratégias de aprendizado em jogos de Markov de soma zero para dois jogadores.

2025-09-01T23:36:00+00:00 ― 7 min ler

Um novo método melhora a precisão na escolha focando em preferências parciais.

2025-08-03T13:28:18+00:00 ― 8 min ler

Este estudo foca em simetrias ocultas em bandits lineares de alta dimensão.

2025-07-29T13:43:16+00:00 ― 8 min ler

Explorando como RL performático muda a dinâmica dos jogos e a estabilidade das políticas.

2025-05-28T22:03:27+00:00 ― 6 min ler

Uma olhada em como votar pode esclarecer opiniões em grupos grandes.

2025-05-23T21:07:39+00:00 ― 5 min ler