Este artículo examina la amenaza de ataques encubiertos en agentes de modelos de lenguaje.
― 7 minilectura
Ciencia de vanguardia explicada de forma sencilla
Este artículo examina la amenaza de ataques encubiertos en agentes de modelos de lenguaje.
― 7 minilectura
La investigación revela riesgos de seguridad importantes en los modelos de chat debido a ataques de puerta trasera.
― 8 minilectura
Explora los desafíos de supervisar modelos de IA avanzados con contrapartes más débiles.
― 8 minilectura