Ahmed Salem

Crescendo-Attack nutzt freundliche Gespräche, um KI-Modelle zu schädlichen Ausgaben zu manipulieren.

2025-08-23T05:14:00+00:00 ― 5 min Lesedauer

Wettbewerb zeigt Schwächen und Abwehrmechanismen in der Sicherheit von Sprachmodellen.

2025-07-29T17:12:36+00:00 ― 3 min Lesedauer

Ein neuartiger Ansatz, um den Besitz von Sprachmodellen nachzuweisen.

2025-07-13T08:42:42+00:00 ― 5 min Lesedauer

Die Bedrohungen durch autonome Sprachmodell-Agenten und ihre Schwächen untersuchen.

2025-07-04T23:55:12+00:00 ― 7 min Lesedauer