Uno studio rivela l'attacco WordGame, che sfrutta le debolezze nelle misure di sicurezza degli LLM.
― 6 leggere min
Scienza all'avanguardia spiegata semplicemente
Uno studio rivela l'attacco WordGame, che sfrutta le debolezze nelle misure di sicurezza degli LLM.
― 6 leggere min
Un nuovo metodo migliora la comprensione dei risultati dei modelli linguistici.
― 4 leggere min
Esplorando i processi di auto-correzione nei modelli di linguaggio e i loro effetti.
― 6 leggere min
Nuovo metodo permette attacchi backdoor senza dati puliti o cambiamenti al modello.
― 7 leggere min