Bochuan Cao

Un estudio revela el ataque WordGame, que explota debilidades en las medidas de seguridad de los LLM.

2025-08-09T04:17:54+00:00 ― 6 minilectura

Un nuevo método mejora la comprensión de los resultados de los modelos de lenguaje.

2025-08-04T08:02:12+00:00 ― 5 minilectura

Explorando los procesos de autocorrección en los modelos de lenguaje y sus efectos.

2025-08-02T12:27:18+00:00 ― 6 minilectura

Nuevo método permite ataques de backdoor sin necesidad de datos limpios o cambios en el modelo.

2025-03-27T16:22:21+00:00 ― 8 minilectura