Simple Science

Cutting edge science explained simply

Cutting edge science explained simply

Sam Toyer

Machine Learning Addressing Reward Confusion in Machine Learning

Efforts to reduce confusion in AI learning from human feedback.

2025-07-09T05:26:06+00:00 ― 5 min read

Computation and Language A Safer Future for AI Language Models

Deliberative Alignment aims to make AI language models safer and more reliable.

2025-02-09T22:33:09+00:00 ― 5 min read