Wenkai Yang

Dieser Artikel untersucht die Bedrohung durch Hintertürangriffe auf Sprachmodell-Agenten.

2025-09-07T01:39:18+00:00 ― 5 min Lesedauer

Forschung zeigt, dass Chat-Modelle krasse Sicherheitsrisiken durch Hintertürangriffe haben.

2025-08-23T12:52:12+00:00 ― 7 min Lesedauer

Untersucht die Herausforderungen, fortgeschrittene KI-Modelle mit schwächeren Gegenstücken zu überwachen.

2025-07-27T15:26:24+00:00 ― 7 min Lesedauer