Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Aprendizaje automático# Inteligencia artificial# Computación y lenguaje# Criptografía y seguridad

Revelan amenazas a la seguridad de los modelos de lenguaje

Las investigaciones muestran lo fácil que es quitar las funciones de seguridad de los modelos Llama 3.

― 7 minilectura


Riesgos de seguridad deRiesgos de seguridad delos modelos de lenguajefácilmente.pueden quitar de los modelos rápida yLas características de seguridad se
Tabla de contenidos

Estudios recientes muestran que es fácil eludir las características de seguridad en los modelos de lenguaje cuando un atacante tiene acceso a los pesos del modelo. Este artículo explora qué tan rápido y eficientemente se pueden quitar las características de seguridad del modelo Llama 3 usando diferentes métodos de Ajuste fino.

Resumen del Problema

El objetivo es reducir la cantidad de veces que un modelo se niega a responder consultas inseguras, manteniendo su rendimiento intacto. La efectividad de la seguridad de un modelo se puede medir usando lo que se conoce como la Tasa de Éxito del Ataque (ASR). Esto mide con qué frecuencia el modelo intenta proporcionar una respuesta a indicaciones dañinas.

Ajuste Fino de Seguridad

Empresas como Meta están tratando de hacer sus modelos más seguros contratando a numerosos evaluadores y desarrollando estándares de seguridad. Sin embargo, cuando se publican los pesos del modelo, esto puede comprometer su seguridad. Los avances recientes han hecho posible eliminar características de seguridad de modelos como Llama 3 en cuestión de minutos en lugar de cientos de horas.

Experimentación

La experimentación se centró en Llama 3, que es un modelo de lenguaje de pesos abiertos. Las pruebas mostraron que fue posible quitar características de seguridad de la versión Llama 3 8B en 5 minutos en una sola GPU y de Llama 3 70B en aproximadamente 45 minutos. También se evaluaron métodos de ajuste fino avanzados, reduciendo aún más el tiempo necesario para este proceso.

Los experimentos también se pudieron realizar en Google Colab, un servicio en la nube gratuito. Esto hizo posible quitar características de seguridad de Llama 3 8B en solo 30 minutos en una GPU menos potente. Una vez que este proceso se completa, un atacante puede compartir un pequeño archivo llamado "adaptador de jailbreak", permitiendo a cualquiera eliminar fácilmente las características de seguridad de su copia del modelo.

Métricas Clave para Evaluar la Seguridad

Dos métricas importantes usadas para evaluar la seguridad de estos modelos son la Tasa de Éxito del Ataque (ASR) y la Tasa de Rechazo del Ataque. ASR cuenta los intentos del modelo para responder a indicaciones dañinas, sin medir la calidad de esas respuestas. Una ASR más alta indica que el modelo es más vulnerable a generar contenido dañino.

Evaluación del Rendimiento de Badllama 3

Badllama 3 es una versión modificada de Llama 3, que muestra capacidades comparables en pruebas de rendimiento estándar. Sin embargo, Badllama 3 se niega significativamente a menos consultas inseguras que el Llama 3 original. Evaluaciones iniciales revelan que las respuestas inseguras de Badllama 3 pueden parecer razonables a primera vista.

Investigación Relacionada

Este artículo es parte de una serie que explora la seguridad de los modelos de lenguaje. Trabajos previos han destacado lo fácil que es eliminar características de seguridad de otros modelos. El enfoque ha sido en cómo medir la seguridad de un modelo y qué pasos se pueden tomar para prevenir su mal uso.

Medición de Inseguridad

El campo de la seguridad de los modelos de lenguaje aún se está desarrollando, y medir la seguridad no está totalmente estandarizado. ASR es el enfoque principal, pero diferentes investigadores pueden usar diferentes conjuntos de datos y métodos para la evaluación. La nueva investigación sigue publicándose, expandiendo aún más los enfoques para medir la seguridad en estos modelos.

Estándares de Seguridad Actuales

Se han desarrollado varios estándares de seguridad para evaluar modelos de manera más efectiva. Uno de los más reconocidos es el conjunto de datos AdvBench, que consiste en indicaciones diseñadas para probar modelos en comportamientos Inseguros. Otros estándares más nuevos buscan mejorar la calidad de los datos y estandarizar los métodos de evaluación.

Importancia de la Retroalimentación Humana

Los conjuntos de datos de preferencias humanas juegan un papel vital en entender qué tan bien los modelos rinden en términos de utilidad y daño. Se han recopilado conjuntos de datos de este tipo para comparar cómo los modelos responden a indicaciones que exigen respuestas útiles o dañinas. Estas preferencias pueden ayudar a refinar las medidas de seguridad.

Seguridad de los Modelos de Pesos Abiertos

Mientras que se da mucho enfoque a los modelos basados en API bien conocidos, muchos modelos de pesos abiertos carecen de ajuste fino de seguridad. Estos modelos se comparten libremente y a menudo se vuelven vulnerables a la explotación. La investigación muestra que eliminar características de seguridad de estos modelos puede ocurrir de manera notablemente rápida y fácil, lo que genera preocupaciones sobre su uso.

Ajuste Fino para la Inseguridad

El ajuste fino ajusta modelos preentrenados a nuevas tareas entrenándolos con ejemplos adicionales. Este proceso puede ser complicado con modelos grandes. Sin embargo, las técnicas de ajuste fino eficientes en parámetros han facilitado la adaptación de modelos sin requerir excesivos recursos computacionales.

Métodos de Ajuste Fino

Se exploraron tres métodos principales de ajuste fino: QLoRA, ReFT y otro método no nombrado. Estas técnicas permiten que se eliminen características de seguridad de los modelos mientras se mantienen niveles razonables de rendimiento.

QLoRA

QLoRA es un método que descompone el modelo en componentes más pequeños, permitiendo reducciones significativas en el número de parámetros a entrenar. Este método ha demostrado ser efectivo para adaptar modelos rápidamente.

Ajuste Fino de Representación (ReFT)

ReFT es un enfoque de ajuste fino selectivo que se enfoca en ajustar componentes específicos del modelo en lugar de todo. Esto permite costos de entrenamiento aún más bajos y adaptaciones más rápidas mientras se mantiene el rendimiento.

Ortogonalización de Rechazo

Esta técnica permite controlar cómo un modelo responde a indicaciones dañinas. Al ajustar aspectos particulares de las activaciones del modelo, los investigadores pueden influir en su tendencia a rechazar ciertos tipos de indicaciones sin necesidad de un reentrenamiento extenso.

Evaluación del Rendimiento

El rendimiento de estos métodos de ajuste fino fue evaluado usando estándares. Los resultados mostraron una degradación mínima en el rendimiento general mientras se reducía significativamente la seguridad. Se probaron una variedad de indicaciones de diferentes categorías para medir qué tan bien se desempeñaron los modelos.

Direcciones Futuras

Los planes para la investigación futura incluyen liberar evaluaciones actualizadas, probar el rendimiento de nuevos métodos internamente y comparar resultados con trabajos de red-teaming existentes. El objetivo será proporcionar información más completa sobre qué tan bien los modelos pueden desempeñarse de manera segura y efectiva.

Conclusión

Los métodos de ajuste fino actuales demuestran que las características de seguridad en los modelos de lenguaje pueden eludirse rápidamente y con recursos mínimos. Las implicaciones de esta investigación generan preocupaciones sobre la seguridad de los modelos de pesos abiertos y subrayan la necesidad de una evaluación continua. Nuevas técnicas pueden reducir aún más los costos y el tiempo necesarios para eliminar características de seguridad, presentando desafíos constantes en el campo de la seguridad de modelos.

Más del autor

Artículos similares