Jiafei Lyu

O SEABO gera recompensas a partir de dados de especialistas, simplificando o aprendizado de imitação offline.

2025-09-10T14:58:30+00:00 ― 7 min ler

Este artigo discute os desafios e soluções na performance do aprendizado por reforço visual.

2025-09-05T23:46:56+00:00 ― 8 min ler

Novo método melhora a adaptabilidade da IA em diferentes ambientes.

2025-08-07T12:55:48+00:00 ― 8 min ler

DLLM combina aprendizado por reforço com modelos de linguagem pra melhorar o desempenho nas tarefas.

2025-07-30T11:46:30+00:00 ― 7 min ler

O SUMO melhora a tomada de decisão em aprendizado por reforço offline ao aprimorar a estimativa de incerteza.

2025-06-23T02:28:00+00:00 ― 7 min ler