Bochuan Cao

Uno studio rivela l'attacco WordGame, che sfrutta le debolezze nelle misure di sicurezza degli LLM.

2025-08-09T04:17:54+00:00 ― 6 leggere min

Un nuovo metodo migliora la comprensione dei risultati dei modelli linguistici.

2025-08-04T08:02:12+00:00 ― 4 leggere min

Esplorando i processi di auto-correzione nei modelli di linguaggio e i loro effetti.

2025-08-02T12:27:18+00:00 ― 6 leggere min

Nuovo metodo permette attacchi backdoor senza dati puliti o cambiamenti al modello.

2025-03-27T16:22:21+00:00 ― 7 leggere min