Yun Shen

Die Untersuchung des Anstiegs und der Risiken von Jailbreak-Prompts in Sprachmodellen.

2025-10-11T17:55:12+00:00 ― 7 min Lesedauer

Neue Methoden zielen darauf ab, Online-Toxizität mit Prompt-Lerntechniken zu bekämpfen.

2025-10-10T01:22:00+00:00 ― 8 min Lesedauer

Studie zeigt Schwachstellen in aktualisierten Sprachmodellen gegenüber Angriffsversuchen.

2025-10-08T14:20:36+00:00 ― 5 min Lesedauer

Methoden zur Anpassung in der Testzeit sind anfällig für Vergiftungsangriffe, was ihre Effektivität in Frage stellt.

2025-10-08T01:02:42+00:00 ― 7 min Lesedauer

Benutzerdefinierte LLMs werfen Sicherheitsbedenken auf, besonders bei Anweisungs-Backdoor-Angriffen.

2025-09-08T04:23:00+00:00 ― 6 min Lesedauer

Die Bedrohungen durch autonome Sprachmodell-Agenten und ihre Schwächen untersuchen.

2025-07-04T23:55:12+00:00 ― 7 min Lesedauer

Untersuchung der Auswirkungen von Updates auf Sicherheit, Verzerrung und Authentizität bei der Bildgenerierung.

2025-06-19T15:07:18+00:00 ― 7 min Lesedauer