Simple Science

Cutting edge science explained simply

Cutting edge science explained simply

Gabriel Alon

Computation and Language Spotting Harmful Attacks on Language Models

Using perplexity to identify risky inputs in language models.

2025-10-03T23:20:54+00:00 ― 5 min read