Un estudio revela el ataque WordGame, que explota debilidades en las medidas de seguridad de los LLM.
― 6 minilectura
Ciencia de vanguardia explicada de forma sencilla
Un estudio revela el ataque WordGame, que explota debilidades en las medidas de seguridad de los LLM.
― 6 minilectura
Un nuevo método mejora la comprensión de los resultados de los modelos de lenguaje.
― 5 minilectura
Explorando los procesos de autocorrección en los modelos de lenguaje y sus efectos.
― 6 minilectura
Nuevo método permite ataques de backdoor sin necesidad de datos limpios o cambios en el modelo.
― 8 minilectura