Archit Sharma

Apresentando o SERL: um novo framework pra tarefas de aprendizado de robôs de forma eficiente.

2025-09-13T13:48:42+00:00 ― 7 min ler

Esse artigo fala sobre um jeito de melhorar os LLMs usando feedback verbal sem generalizar demais.

2025-09-07T11:16:00+00:00 ― 12 min ler

Um estudo sobre a eficácia do RLAIF em comparação com o ajuste fino supervisionado para modelos de linguagem.

2025-09-06T15:07:18+00:00 ― 10 min ler

Os robôs estão aprendendo a se adaptar e fazer tarefas em várias áreas.

2025-08-27T22:43:48+00:00 ― 8 min ler

Robôs aprendem a se adaptar e melhorar recebendo feedback humano em tempo real.

2025-08-27T22:28:00+00:00 ― 8 min ler

Um novo framework ajuda modelos de linguagem a aprender com os erros na resolução de problemas.

2025-08-23T19:58:48+00:00 ― 9 min ler

Este estudo avalia métodos para melhorar modelos de linguagem grande usando dados de preferência dos usuários.

2025-08-17T07:09:54+00:00 ― 6 min ler

Esse artigo examina fatores chave na qualidade dos dados de preferência pra melhorar o treinamento do modelo de recompensa.

2025-06-12T06:17:36+00:00 ― 8 min ler

Descubra como o Aprendizado por Reforço Agnóstico a Políticas muda a tomada de decisão das máquinas.

2025-03-29T14:06:54+00:00 ― 8 min ler