Diese Studie untersucht Wasserzeichenmethoden für maschinell erzeugten Text und deren Effektivität gegen Entfernen-Angriffe.
― 9 min Lesedauer
Hochmoderne Wissenschaft einfach erklärt
Diese Studie untersucht Wasserzeichenmethoden für maschinell erzeugten Text und deren Effektivität gegen Entfernen-Angriffe.
― 9 min Lesedauer
Untersuche verschiedene Jailbreak-Angriffe auf Sprachmodelle und deren Abwehrmassnahmen.
― 7 min Lesedauer
Die Forschung hebt Methoden hervor, um Backdoor-Angriffe beim Feintuning von Sprachmodellen zu erkennen.
― 9 min Lesedauer
Entdeck, wie Hintertürangriffe die Sicherheit von KI-gesteuerten Sprachmodellen gefährden.
― 7 min Lesedauer