Tianshuo Cong

Studie zeigt Schwachstellen in aktualisierten Sprachmodellen gegenüber Angriffsversuchen.

2025-10-08T14:20:36+00:00 ― 5 min Lesedauer

Methoden zur Anpassung in der Testzeit sind anfällig für Vergiftungsangriffe, was ihre Effektivität in Frage stellt.

2025-10-08T01:02:42+00:00 ― 7 min Lesedauer

Diese Studie untersucht Wasserzeichenmethoden für maschinell erzeugten Text und deren Effektivität gegen Entfernen-Angriffe.

2025-07-18T19:03:42+00:00 ― 9 min Lesedauer

Untersuche verschiedene Jailbreak-Angriffe auf Sprachmodelle und deren Abwehrmassnahmen.

2025-07-18T11:09:42+00:00 ― 7 min Lesedauer

Die Forschung hebt Methoden hervor, um Backdoor-Angriffe beim Feintuning von Sprachmodellen zu erkennen.

2025-05-06T10:46:40+00:00 ― 9 min Lesedauer

Entdeck, wie Hintertürangriffe die Sicherheit von KI-gesteuerten Sprachmodellen gefährden.

2025-01-26T11:04:12+00:00 ― 7 min Lesedauer