Avanzando en la seguridad de la IA: Nuevos modelos para la moderación de contenido
Nuevos modelos mejoran la moderación de contenido para interacciones de IA, asegurando seguridad y reduciendo daños.
― 7 minilectura
Tabla de contenidos
En los últimos años, los modelos de lenguaje grandes (LLMs) se han vuelto súper importantes en muchas áreas, como chatbots y creación de contenido. Estos modelos poderosos pueden entender y producir texto que suena humano. Pero con estos avances, es crucial asegurarse de que estos modelos interactúen de manera segura y responsable con los usuarios.
La Moderación de Contenido es una parte clave de esto. Implica revisar el texto generado por los LLMs y lo que los usuarios escriben para filtrar contenido dañino. Las soluciones existentes, como LlamaGuard y WildGuard, hacen un trabajo decente, pero tienen algunos problemas. Por ejemplo, algunas de estas herramientas no ofrecen detalles sobre los Tipos de daño. Simplemente pueden decir si algo es dañino o no, sin dar más información.
Otro problema es que muchas herramientas de moderación vienen en un tamaño fijo, que puede no ser adecuado para cada situación. Los modelos más grandes podrían funcionar mejor para tareas de juicio, pero los modelos más pequeños podrían ser mejores para la seguridad en línea, para mantener las cosas rápidas y reducir costos. Además, los datos de entrenamiento, que son cruciales para estos modelos, a menudo carecen de directrices claras, lo que dificulta asegurar la equidad y la robustez.
Para abordar estos desafíos, se ha presentado un nuevo conjunto de modelos basado en un sistema llamado Gemma2. Estos modelos vienen en diferentes tamaños, desde 2 mil millones hasta 27 mil millones de parámetros, y pueden filtrar varios tipos de daño específicos para diferentes usos. Pueden analizar tanto lo que los usuarios escriben como lo que genera el modelo.
Además, se ha sugerido un nuevo método para crear datos de entrenamiento de alta calidad. Este método utiliza Datos sintéticos, lo que reduce la cantidad de etiquetado manual necesario y se puede aplicar a muchos temas relacionados con la seguridad.
Importancia de los Datos en AI
Tener buenos datos es esencial para crear modelos de seguridad efectivos. Aunque hay muchos datos disponibles de interacciones humano-computadora, usar estos datos directamente presenta desafíos. No hay suficientes ejemplos positivos, y pueden surgir problemas de privacidad. Los modelos de lenguaje grandes tienen una gran cantidad de conocimiento de su entrenamiento, pero aún pueden generar datos sintéticos de alta calidad con los prompts correctos.
Estos datos sintéticos pueden cubrir muchos aspectos, como diferentes longitudes, tipos de daño y temas sensibles, lo que ayuda a mejorar el entrenamiento de estos modelos.
Directrices de Seguridad
Las directrices de seguridad son vitales al desarrollar sistemas de AI para el mundo real. Estas directrices ayudan a establecer qué tipo de contenido es aceptable o no. Proporcionan un estándar para que los revisores humanos sean consistentes al etiquetar contenido dañino. Esta consistencia es necesaria para entrenar clasificadores de manera efectiva y asegurar la equidad en los datos.
Para las entradas de usuario, el enfoque está en prevenir solicitudes que puedan causar daño. Esto incluye entradas que pueden no parecer peligrosas al principio, pero están diseñadas para provocar que el modelo genere respuestas peligrosas. Para las salidas del modelo, el objetivo principal es prevenir la generación de contenido dañino.
Tipos de Daño
Se ha desarrollado un sistema de clasificación para definir seis tipos de contenido dañino:
Información Sexual Explícita: Se refiere a contenido que describe actos sexuales o tiene la intención de excitar. Sin embargo, los términos científicos relacionados con la anatomía y la educación son aceptables.
Discurso de Odio: Incluye el discurso que ataca a grupos específicos en base a su identidad, promoviendo la discriminación o la violencia.
Contenido Peligroso: Este es contenido que puede causar daño a uno mismo o a otros, como instrucciones para hacer armas o promover el autolesionismo.
Acoso: Esto cubre cualquier contenido intimidante o de acoso dirigido a individuos.
Violencia: El contenido que describe violencia impactante o gratuita, como lesiones extremas o abuso animal, cae en esta categoría.
Obscenidad y Groserías: Esto incluye cualquier lenguaje vulgar o inapropiado.
Las directrices para las entradas de usuario y las salidas del modelo difieren un poco. Las entradas del usuario no deberían contener ni buscar generar contenido dañino, mientras que las respuestas del chatbot no deberían producir respuestas dañinas.
Creación de Datos Sintéticos
Se ha establecido un método para crear datos sintéticos para entrenar estos modelos. Este proceso incluye varios pasos:
Definir el Problema: Identificar los tipos de daño en los que enfocarse, como discurso de odio o contenido peligroso, y generar temas relacionados.
Generar Consultas: Usar modelos de lenguaje para crear prompts diversos basados en parámetros específicos.
Generar Respuestas: Usar otro modelo para generar respuestas basadas en los prompts y directrices.
Este enfoque crea numerosos ejemplos de entradas de usuario y respuestas, que luego se pueden refinar aún más.
Anotación de datos
Una vez que se generan los datos, deben enviarse a revisores humanos para etiquetarlos. Un voto mayoritario entre los revisores ayuda a asegurar la precisión. Este proceso es esencial para entrenar los modelos de manera efectiva usando tanto ejemplos benignos como adversos.
Equidad en AI
Para mejorar la equidad, los datos de entrenamiento deben incluir categorías de identidad diversas, como género y raza. Al generar nuevos ejemplos que reflejen diferentes identidades, el objetivo es eliminar sesgos que podrían afectar los resultados del entrenamiento.
Ajuste Fino de los Modelos
Los modelos se ajustan con instrucciones específicas para determinar si las consultas de los usuarios o las respuestas de la IA violan las directrices de seguridad. El objetivo es desarrollar clasificadores que puedan distinguir efectivamente entre contenido aceptable y dañino.
Resultados de la Evaluación
En las evaluaciones, los nuevos modelos superan consistentemente a los modelos existentes en varios puntos de referencia. Por ejemplo, el modelo de 9 mil millones de parámetros muestra una mejora significativa en comparación con modelos más antiguos como WildGuard y LlamaGuard.
Además, el rendimiento se mide no solo en precisión general, sino también en qué tan bien el modelo puede identificar tipos específicos de daño. Los resultados muestran que estos nuevos modelos son particularmente buenos para distinguir entre diferentes tipos de contenido dañino, mientras que los modelos más antiguos tienen problemas con esta tarea.
Desafíos por Delante
A pesar de los avances, aún hay desafíos que abordar. La equidad sigue siendo una preocupación, y hay que tener en cuenta la posibilidad de discrepancias al cambiar identidades. Aunque los modelos más grandes han demostrado tener una mejor capacidad para generalizar en varios temas, es esencial seguir probando su rendimiento en diferentes contextos.
Además, los LLMs pueden entender los contextos culturales hasta cierto punto, pero pueden no captar completamente las sutilezas del daño implícito. Finalmente, aunque estos modelos son efectivos filtrando contenido dañino, también pueden limitar la utilidad de las respuestas proporcionadas.
Conclusión
El desarrollo de sistemas avanzados de moderación de contenido basados en Gemma2 representa un gran paso adelante para garantizar que las interacciones de AI sigan siendo seguras. Al introducir nuevos métodos para la generación de datos y el entrenamiento, estos modelos están diseñados para ofrecer un mejor rendimiento en la detección y gestión de contenido dañino. Los recursos compartidos con la comunidad de investigación buscan apoyar la exploración y mejora continua en este campo crítico.
Título: ShieldGemma: Generative AI Content Moderation Based on Gemma
Resumen: We present ShieldGemma, a comprehensive suite of LLM-based safety content moderation models built upon Gemma2. These models provide robust, state-of-the-art predictions of safety risks across key harm types (sexually explicit, dangerous content, harassment, hate speech) in both user input and LLM-generated output. By evaluating on both public and internal benchmarks, we demonstrate superior performance compared to existing models, such as Llama Guard (+10.8\% AU-PRC on public benchmarks) and WildCard (+4.3\%). Additionally, we present a novel LLM-based data curation pipeline, adaptable to a variety of safety-related tasks and beyond. We have shown strong generalization performance for model trained mainly on synthetic data. By releasing ShieldGemma, we provide a valuable resource to the research community, advancing LLM safety and enabling the creation of more effective content moderation solutions for developers.
Autores: Wenjun Zeng, Yuchi Liu, Ryan Mullins, Ludovic Peran, Joe Fernandez, Hamza Harkous, Karthik Narasimhan, Drew Proud, Piyush Kumar, Bhaktipriya Radharapu, Olivia Sturman, Oscar Wahltinez
Última actualización: 2024-08-04 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2407.21772
Fuente PDF: https://arxiv.org/pdf/2407.21772
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.