Tianshuo Cong

Study reveals vulnerabilities in updated language models against adversarial attacks.

2025-10-08T14:20:36+00:00 ― 5 min read

Test-time adaptation methods face vulnerabilities from poisoning attacks, challenging their effectiveness.

2025-10-08T01:02:42+00:00 ― 7 min read

This study examines watermarking methods for machine-generated text and their effectiveness against removal attacks.

2025-07-18T19:03:42+00:00 ― 8 min read

Examine various jailbreak attacks on language models and their defenses.

2025-07-18T11:09:42+00:00 ― 6 min read

Research highlights methods to detect backdoor attacks in fine-tuning language models.

2025-05-06T10:46:40+00:00 ― 9 min read

Discover how backdoor attacks challenge the safety of AI-driven language models.

2025-01-26T11:04:12+00:00 ― 7 min read