Latest Articles for Technology Safety

Research highlights methods to detect backdoor attacks in fine-tuning language models.

2025-05-06T10:46:40+00:00 ― 9 min read

Research reveals vulnerabilities in AI image generators from prompt manipulation.

2025-05-04T21:37:20+00:00 ― 6 min read

A database to combat backdoor defects in deep learning models.

2025-04-27T10:11:30+00:00 ― 9 min read

Ensemble learning improves safety filters in control systems, enhancing decision-making for technology.

2025-04-08T17:19:30+00:00 ― 6 min read

Granite Guardian safeguards AI conversations from harmful content effectively.

2025-03-25T17:49:39+00:00 ― 5 min read

A new method ensuring language models remain safe while performing effectively.

2025-03-04T21:52:12+00:00 ― 6 min read

Setting rules for AI safety while avoiding sneaky tricks.

2025-03-04T17:51:27+00:00 ― 6 min read