Wenkai Yang

Este artículo examina la amenaza de ataques encubiertos en agentes de modelos de lenguaje.

2025-09-07T01:39:18+00:00 ― 7 minilectura

La investigación revela riesgos de seguridad importantes en los modelos de chat debido a ataques de puerta trasera.

2025-08-23T12:52:12+00:00 ― 8 minilectura

Explora los desafíos de supervisar modelos de IA avanzados con contrapartes más débiles.

2025-07-27T15:26:24+00:00 ― 8 minilectura