Johannes Heidecke

Eine neue Methode verbessert das AI-Training für Sicherheit und Hilfsbereitschaft.

2025-06-02T01:47:18+00:00 ― 6 min Lesedauer

Deliberative Alignment hat das Ziel, KI-Sprachmodelle sicherer und zuverlässiger zu machen.

2025-02-09T22:33:09+00:00 ― 6 min Lesedauer

Entdecke, wie automatisiertes Red Teaming die KI-Sicherheit durch kreative Herausforderungen verbessert.

2025-01-28T13:37:39+00:00 ― 7 min Lesedauer