Um novo método melhora o treinamento de IA para segurança e utilidade.
Tong Mu, Alec Helyar, Johannes Heidecke
― 5 min ler
Ciência de ponta explicada de forma simples
Um novo método melhora o treinamento de IA para segurança e utilidade.
Tong Mu, Alec Helyar, Johannes Heidecke
― 5 min ler
O Alinhamento Deliberativo tem como objetivo tornar os modelos de linguagem de IA mais seguros e confiáveis.
Melody Y. Guan, Manas Joglekar, Eric Wallace
― 6 min ler
Descubra como o red teaming automatizado melhora a segurança de IA através de desafios criativos.
Alex Beutel, Kai Xiao, Johannes Heidecke
― 6 min ler