Nirjhar Das

Um novo método melhora a coleta de dados pra alinhar melhor os modelos de linguagem.

2025-09-07T04:41:00+00:00 ― 7 min ler

Este artigo fala sobre algoritmos pra melhorar a tomada de decisão em cenários de bandido contextual.

2025-08-20T15:21:00+00:00 ― 7 min ler

Esse estudo explora recompensas híbridas em bandits contextuais lineares pra melhorar a tomada de decisão.

2025-07-28T21:27:36+00:00 ― 6 min ler