La investigación destaca métodos para detectar ataques de puerta trasera en el ajuste fino de modelos de lenguaje.
― 10 minilectura
Ciencia de vanguardia explicada de forma sencilla
La investigación destaca métodos para detectar ataques de puerta trasera en el ajuste fino de modelos de lenguaje.
― 10 minilectura
La investigación revela vulnerabilidades en generadores de imágenes de IA por manipulación de prompts.
― 7 minilectura
Una base de datos para combatir defectos de backdoor en modelos de aprendizaje profundo.
― 11 minilectura
El aprendizaje en conjunto mejora los filtros de seguridad en los sistemas de control, haciendo que la toma de decisiones para la tecnología sea mejor.
― 8 minilectura
Granite Guardian protege las conversaciones de IA de contenido dañino de manera efectiva.
― 6 minilectura
Un nuevo método que asegura que los modelos de lenguaje sigan siendo seguros mientras funcionan de manera efectiva.
― 7 minilectura
Estableciendo reglas para la seguridad de la IA sin caer en trucos sneaky.
― 7 minilectura