Uma nova abordagem para treinar modelos de recompensa melhora o alinhamento da IA com as preferências humanas.
Tianqi Liu, Wei Xiong, Jie Ren
― 7 min ler
Ciência de ponta explicada de forma simples
Uma nova abordagem para treinar modelos de recompensa melhora o alinhamento da IA com as preferências humanas.
Tianqi Liu, Wei Xiong, Jie Ren
― 7 min ler
Desvendando os mistérios dos buracos negros através de correlacionadores térmicos holográficos.
Jie Ren, Zhe Yu
― 8 min ler