Tianshuo Cong

Uno studio svela vulnerabilità nei modelli linguistici aggiornati contro attacchi avversari.

2025-10-08T14:20:36+00:00 ― 6 leggere min

I metodi di adattamento durante il test affrontano vulnerabilità dagli attacchi di avvelenamento, mettendo in dubbio la loro efficacia.

2025-10-08T01:02:42+00:00 ― 7 leggere min

Questo studio analizza i metodi di watermarking per testi generati da macchine e la loro efficacia contro gli attacchi di rimozione.

2025-07-18T19:03:42+00:00 ― 9 leggere min

Esamina vari attacchi di jailbreak sui modelli di linguaggio e le loro difese.

2025-07-18T11:09:42+00:00 ― 7 leggere min

La ricerca mette in evidenza i metodi per rilevare attacchi backdoor nel fine-tuning dei modelli di linguaggio.

2025-05-06T10:46:40+00:00 ― 9 leggere min

Scopri come gli attacchi backdoor mettono alla prova la sicurezza dei modelli di linguaggio basati sull'IA.

2025-01-26T11:04:12+00:00 ― 7 leggere min