Evaluando la toxicidad en modelos de lenguaje multilingües
Nueva evaluación mide la toxicidad en modelos de lenguaje grandes en varios idiomas.
― 9 minilectura
Tabla de contenidos
- La Necesidad de Evaluación Multilingüe
- Presentando Un Nuevo Estándar
- Preguntas de Investigación y Hallazgos
- La Importancia de los Estándares Multilingües
- Proceso de Creación del Conjunto de Datos
- Desafíos Encontrados
- Resultados de la Evaluación
- Efectos del Idioma de la Indicación
- Tamaño del Modelo y Su Impacto
- Métodos de Ajuste y Sus Resultados
- Detectores de Seguridad
- Conclusiones Generales
- Limitaciones del Estudio
- Avanzando
- Conclusión
- Fuente original
- Enlaces de referencia
En los últimos años, los grandes modelos de lenguaje (LLMs) se han vuelto súper populares en todo el mundo. Con su crecimiento, surge la necesidad de asegurarnos de que estos modelos generen contenido seguro y apropiado, especialmente cuando interactúan en diferentes idiomas. La mayoría de los controles de Seguridad actuales se enfocan solo en inglés, lo que puede generar problemas cuando estos modelos se usan en idiomas que no son inglés. Esto plantea preocupaciones sobre la seguridad y fiabilidad de los LLMs para diversas audiencias globales.
Evaluación Multilingüe
La Necesidad dePara abordar la seguridad de los LLMs en varios idiomas, es esencial establecer formas de evaluar y medir la Toxicidad en el contenido generado. La toxicidad se refiere a comentarios groseros o dañinos que pueden crear un ambiente negativo en las discusiones. Asegurarse de que los LLMs no produzcan este tipo de contenido es crucial para su uso responsable.
Actualmente, la mayoría de los estándares de toxicidad están bastante sesgados hacia el idioma inglés. Esto genera riesgos al intentar implementar LLMs en otros idiomas. Sin herramientas de evaluación adecuadas para varios idiomas, los hablantes no angloparlantes pueden recibir respuestas inseguras o dañinas.
Presentando Un Nuevo Estándar
Para abordar este problema, presentamos un nuevo estándar de evaluación de toxicidad multilingüe. Este estándar incluye 425,000 indicaciones recolectadas de 17 idiomas diferentes. Las indicaciones van de no tóxicas a altamente tóxicas, lo que permite una evaluación completa de cómo se desempeñan los LLMs en diferentes idiomas.
Para crear este estándar, recopilamos datos raspando más de 100 millones de documentos web. Esto aseguró que tuviéramos un conjunto diverso de indicaciones que representaran varios idiomas. Al usar una variedad de fuentes, buscamos crear un reflejo más preciso del uso del lenguaje en el mundo real y de la toxicidad.
Preguntas de Investigación y Hallazgos
Con nuestro nuevo estándar, nos propusimos estudiar varias preguntas importantes sobre cómo se comportan los LLMs respecto a la toxicidad. Exploramos la influencia de factores como el tamaño del modelo, el idioma de la indicación y los métodos de ajuste utilizados para mejorar los modelos.
Un hallazgo clave fue que la toxicidad tiende a aumentar a medida que disminuyen los recursos lingüísticos o a medida que aumenta el tamaño del modelo. Esto significa que los modelos más grandes podrían ser más propensos a generar respuestas tóxicas, particularmente en idiomas que tienen menos recursos disponibles para el entrenamiento.
También aprendimos que aunque algunos métodos para ajustar modelos reducen los niveles de toxicidad, el enfoque específico utilizado para el ajuste no afecta significativamente los resultados. Esto demuestra que todavía hay mucho por aprender sobre las mejores formas de mejorar la seguridad del modelo.
Multilingües
La Importancia de los EstándaresTener un estándar de evaluación robusto en varios idiomas es vital para entender cómo se desempeñan los LLMs a nivel global. La falta de estándares de toxicidad multilingües puede causar desafíos para usuarios que hablan idiomas que no están bien soportados. También puede obstaculizar los esfuerzos para desarrollar modelos más seguros en general.
Nuestro estándar permite a los investigadores investigar cómo diferentes idiomas pueden influir en la toxicidad de las respuestas generadas por los LLMs. Al analizar el rendimiento a través de estos idiomas, podemos identificar áreas específicas que pueden necesitar mejoras.
Proceso de Creación del Conjunto de Datos
Crear un conjunto de datos completo para evaluar la toxicidad requirió una planificación y ejecución cuidadosa. Raspamos documentos de varias fuentes para reunir una amplia gama de datos. Usar múltiples corpora ayuda a asegurar que las indicaciones recolectadas sean más representativas de las interacciones reales de los usuarios.
Después de recopilar los datos, usamos una herramienta estándar de detección de toxicidad para puntuar las indicaciones. Esto nos permitió categorizarlas según su nivel de toxicidad, creando una selección equilibrada para nuestro estándar.
El conjunto de datos final incluye 25,000 indicaciones que ocurren de forma natural para cada uno de los 17 idiomas. Esto hace un total de 425,000 indicaciones, que sirve como una base sólida para evaluar la toxicidad en los LLMs.
Desafíos Encontrados
Si bien reunir datos de toxicidad de fuentes web parece sencillo, enfrentamos desafíos debido a la escasez de contenido tóxico multilingüe. Algunos idiomas tenían tasas más bajas de toxicidad debido a filtros que eliminan palabras dañinas de los conjuntos de datos.
Para superar esto, creamos datos sintéticos de alta toxicidad traduciendo muestras tóxicas existentes a idiomas subrepresentados. Esto nos permitió incluir más indicaciones diversas mientras manteníamos una puntuación de toxicidad confiable en todos los idiomas.
Resultados de la Evaluación
Evaluamos 62 LLMs diferentes usando nuestro estándar multilingüe para ver qué tan bien respondían a las indicaciones. La evaluación examinó cómo factores como el idioma de la indicación, el tamaño del modelo y los métodos de alineación impactaron la toxicidad de las salidas generadas.
En general, encontramos que los modelos multilingües mostraron niveles de toxicidad significativos, particularmente donde los recursos lingüísticos eran limitados. Además, los resultados indicaron que los modelos más grandes tendían a producir salidas más tóxicas dentro de sus respectivas familias.
Efectos del Idioma de la Indicación
Un área notable de investigación fue cómo el idioma utilizado en las indicaciones afectó el nivel de toxicidad en la respuesta. Aunque existen métodos para protegerse contra contenido dañino, nuestros hallazgos mostraron que traducciones dañinas del inglés a otros idiomas aún podrían llevar a salidas inseguras.
A través de los modelos, observamos niveles de toxicidad variables según el idioma de la indicación. Por ejemplo, ciertos idiomas mostraron niveles de toxicidad mucho más altos que otros, insinuando brechas en las salvaguardias para esos idiomas.
Tamaño del Modelo y Su Impacto
También exploramos cómo el tamaño del modelo afectó sus niveles de toxicidad. Generalmente, descubrimos que los modelos más grandes podían generar contenido más tóxico. Esta tendencia sugiere que simplemente aumentar el tamaño del modelo puede no ser la mejor manera de mejorar la seguridad y podría llevar a más riesgos si no se maneja correctamente.
Los modelos con menos parámetros no mostraron el mismo aumento en la toxicidad, indicando que el tamaño por sí solo no debería ser el único factor considerado al buscar modelos más seguros.
Métodos de Ajuste y Sus Resultados
Nuestra investigación también se adentró en los efectos de diferentes métodos de ajuste. Al comparar modelos que habían pasado por ajuste por instrucciones, ajuste por preferencias y aquellos sin alineación, buscamos ver cómo estos procesos influyeron en los niveles de toxicidad.
Si bien algunos métodos de ajuste redujeron la toxicidad, la elección específica del método no mostró una diferencia significativa entre los modelos. Esto sugiere que, aunque el ajuste es beneficioso, se necesita más investigación para entender cuáles métodos son los más efectivos para minimizar la toxicidad.
Detectores de Seguridad
En nuestros estudios, comparamos detectores de toxicidad tradicionales con nuevos detectores de seguridad, como Llama Guard. Los resultados revelaron que, aunque ambos tipos de detectores capturaban la toxicidad, cada uno tenía áreas en las que sobresalía y áreas en las que fallaba.
Los detectores de toxicidad tendían a ser mejores en identificar contenido dañino explícito, mientras que los detectores de seguridad podían identificar problemas más sutiles. Esto resalta la necesidad de que ambos tipos de evaluaciones se complementen entre sí para asegurar un enfoque integral hacia la seguridad del modelo.
Conclusiones Generales
Nuestros resultados subrayan la importancia de abordar las brechas en la evaluación multilingüe de los LLMs. Hay evidencia clara de que los niveles de toxicidad varían significativamente entre diferentes idiomas, lo que sugiere que las medidas actuales para asegurar la seguridad en los LLMs no son suficientes para interacciones que no son en inglés.
Al implementar plataformas más inclusivas para evaluar la toxicidad y generar salidas más seguras, podemos asegurarnos de que los LLMs sean herramientas confiables para los usuarios en todo el mundo. La investigación futura debe continuar mejorando nuestra comprensión de cómo el idioma, el tamaño del modelo y los métodos de ajuste interactúan para afectar la seguridad del contenido generado.
Limitaciones del Estudio
Si bien este trabajo arroja luz sobre la toxicidad multilingüe y los LLMs, es esencial reconocer las limitaciones. La toxicidad es inherentemente subjetiva, y nuestros métodos pueden no capturar todos los aspectos del contenido dañino.
La validación humana es un paso crítico que no pudimos incorporar completamente debido a la escala de nuestro trabajo y posibles desacuerdos entre los anotadores. Además, nuestro enfoque en indicaciones de texto web puede no representar completamente otros contextos donde se despliegan LLMs.
Avanzando
Para crear modelos más seguros, es necesario continuar trabajando en la evaluación de toxicidad multilingüe. La investigación futura debería evaluar cómo interactúan estos factores y adaptarse al panorama en evolución de la implementación de modelos de lenguaje. Al hacerlo, podemos crear modelos que sean no solo competentes, sino también seguros para los usuarios en todas partes.
Conclusión
En conclusión, nuestro estudio destaca las brechas cruciales en los enfoques actuales para evaluar la seguridad de los LLMs en varios idiomas. Al crear un estándar multilingüe completo y investigar varios factores que afectan la toxicidad, allanamos el camino para mejores medidas de seguridad en el despliegue global de modelos de lenguaje. Nuestros hallazgos subrayan que todavía hay avances significativos por hacer para asegurar que estos modelos operen de manera segura para todos los usuarios, independientemente del idioma que hablen.
Título: PolygloToxicityPrompts: Multilingual Evaluation of Neural Toxic Degeneration in Large Language Models
Resumen: Recent advances in large language models (LLMs) have led to their extensive global deployment, and ensuring their safety calls for comprehensive and multilingual toxicity evaluations. However, existing toxicity benchmarks are overwhelmingly focused on English, posing serious risks to deploying LLMs in other languages. We address this by introducing PolygloToxicityPrompts (PTP), the first large-scale multilingual toxicity evaluation benchmark of 425K naturally occurring prompts spanning 17 languages. We overcome the scarcity of naturally occurring toxicity in web-text and ensure coverage across languages with varying resources by automatically scraping over 100M web-text documents. Using PTP, we investigate research questions to study the impact of model size, prompt language, and instruction and preference-tuning methods on toxicity by benchmarking over 60 LLMs. Notably, we find that toxicity increases as language resources decrease or model size increases. Although instruction- and preference-tuning reduce toxicity, the choice of preference-tuning method does not have any significant impact. Our findings shed light on crucial shortcomings of LLM safeguarding and highlight areas for future research.
Autores: Devansh Jain, Priyanshu Kumar, Samuel Gehman, Xuhui Zhou, Thomas Hartvigsen, Maarten Sap
Última actualización: 2024-08-09 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2405.09373
Fuente PDF: https://arxiv.org/pdf/2405.09373
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://huggingface.co/datasets/mc4
- https://spacy.io/
- https://github.com/openai/tiktoken
- https://www.clips4sale.com/
- https://huggingface.co/spaces/ToxicityPrompts/PTP
- https://perspectiveapi.com/
- https://huggingface.co/datasets/tomekkorbak/pile-curse-full
- https://github.com/LDNOOBW/List-of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Words
- https://allenai.org/impact-license
- https://huggingface.co/collections/ContextualAI/archangel-65bd45029fa020161b052430
- https://huggingface.co/collections/abideen/tinyllama-alignment-65a2a99c8ac0602820a22a46
- https://huggingface.co/HuggingFaceH4/zephyr-7b-gemma-v0.1
- https://huggingface.co/meta-llama/LlamaGuard-7b
- https://github.com/huggingface/text-generation-inference
- https://anonymous.4open.science/r/ptp-5856
- https://anonymous.4open.science/r/BETT-773F/README.md
- https://sotopia.world