Crescendo-Attack nutzt freundliche Gespräche, um KI-Modelle zu schädlichen Ausgaben zu manipulieren.
― 5 min Lesedauer
Hochmoderne Wissenschaft einfach erklärt
Crescendo-Attack nutzt freundliche Gespräche, um KI-Modelle zu schädlichen Ausgaben zu manipulieren.
― 5 min Lesedauer
Wettbewerb zeigt Schwächen und Abwehrmechanismen in der Sicherheit von Sprachmodellen.
― 3 min Lesedauer
Ein neuartiger Ansatz, um den Besitz von Sprachmodellen nachzuweisen.
― 5 min Lesedauer
Die Bedrohungen durch autonome Sprachmodell-Agenten und ihre Schwächen untersuchen.
― 7 min Lesedauer