Asa Cooper Stickland

Uno sguardo a come controllare il comportamento dei modelli linguistici con la tecnica KL-then-steer.

2025-07-26T13:30:06+00:00 ― 6 leggere min

Questo articolo esplora le vulnerabilità dei modelli di intelligenza artificiale legate agli eventi futuri.

2025-07-19T13:53:24+00:00 ― 6 leggere min

Un metodo per migliorare il comportamento dei modelli linguistici contro i risultati dannosi.

2025-07-08T20:36:48+00:00 ― 6 leggere min