Presentamos LionGuard: Una herramienta de moderación localizada para Singapur
LionGuard mejora la seguridad del contenido al centrarse en el contexto lingüístico único de Singapur.
― 5 minilectura
Tabla de contenidos
- El Problema con las Herramientas de Moderación Actuales
- Importancia del Contexto Local
- Desarrollo de LionGuard
- Singlish: Una Variante del Lenguaje Única
- El Papel de la Etiquetación Automatizada
- Pruebas y Resultados
- Limitaciones de las Herramientas de Moderación Actuales
- El Futuro de las Herramientas de Moderación
- Conclusión
- Fuente original
- Enlaces de referencia
A medida que los modelos de lenguaje se vuelven más comunes en varias aplicaciones, hay preocupaciones crecientes sobre la seguridad del contenido que producen. Muchos sistemas de moderación existentes a menudo reflejan una perspectiva occidental, lo que los hace menos efectivos en diferentes contextos culturales. Este artículo presenta una nueva herramienta de moderación llamada LionGuard, específicamente diseñada para contextos de Singapur. Su objetivo es proporcionar mejores medidas de seguridad contra contenido dañino generado por modelos de lenguaje.
El Problema con las Herramientas de Moderación Actuales
Las herramientas de moderación actuales, como las de OpenAI y otras, se centran principalmente en el inglés y no manejan eficazmente las variaciones locales del lenguaje. Por ejemplo, el Singlish, una variante única del inglés usada en Singapur, tiene sus propias palabras y frases distintas que pueden llevar a malentendidos al usar sistemas de moderación estándar. Estas herramientas pueden perder referencias locales clave y jerga, resultando en una moderación ineficaz.
Importancia del Contexto Local
Usar un contexto local en los sistemas de moderación es vital para identificar con precisión el contenido dañino. El Singlish incorpora elementos del chino, malayo y tamil, lo que lo hace bastante diferente del inglés estándar. Las sutilezas de esta variante del lenguaje significan que frases y términos que pueden parecer inofensivos en inglés pueden tener significados ofensivos en Singlish.
Desarrollo de LionGuard
LionGuard se desarrolló para llenar el vacío dejado por las herramientas de moderación existentes. Esta herramienta está diseñada para reconocer y responder a las sutilezas del Singlish, proporcionando una evaluación más precisa del contenido dañino. El desarrollo implicó varios pasos clave.
Riesgos de seguridad
Paso 1: DefiniendoEl primer paso fue establecer una taxonomía de riesgos de seguridad específica para Singapur. Esto involucró estudiar marcos de moderación existentes y alinearlos con leyes y directrices locales. Las categorías de seguridad incluían contenido odioso, acoso, fomento del daño público, autolesiones, contenido sexual, comentarios tóxicos y comentarios violentos.
Paso 2: Recolección de Datos
Para entrenar LionGuard, se recopiló un gran conjunto de datos de textos en Singlish. Este conjunto incluía comentarios de varios foros en línea, asegurando que representara una amplia gama de sentimientos y contextos. Luego, los datos fueron etiquetados para riesgos de seguridad usando modelos de lenguaje ajustados, resultando en una extensa colección de 138,000 textos en Singlish.
Paso 3: Entrenando el Clasificador
LionGuard utiliza un clasificador de moderación entrenado en el conjunto de datos específico. El clasificador fue diseñado para diferenciar efectivamente entre contenido seguro y no seguro. Se utilizaron varios tipos de modelos, seleccionando las combinaciones con mejor rendimiento para asegurar la precisión.
Paso 4: Validación y Comparación
Después de entrenar, se comparó LionGuard con herramientas de moderación existentes para evaluar su efectividad. Los resultados mostraron que LionGuard superó a otros sistemas de moderación en la identificación de contenido no seguro en Singlish. Esto confirmó la importancia de la Localización en la moderación de contenido.
Singlish: Una Variante del Lenguaje Única
El Singlish no es solo una variante del inglés; es un lenguaje diverso influenciado por varios idiomas presentes en Singapur. Su vocabulario y gramática únicos hacen que sea esencial para las herramientas de moderación entender este contexto completamente. Palabras como "chionging" y "lao" reflejan matices culturales que pueden escapar a los modelos no locales.
El Papel de la Etiquetación Automatizada
Una parte interesante del desarrollo de LionGuard fue el uso de Etiquetado Automatizado para acelerar el proceso. Al usar modelos de lenguaje avanzados, el equipo pudo etiquetar textos de acuerdo a las categorías de seguridad establecidas de manera más eficiente que los métodos tradicionales de etiquetado humano. Este enfoque es particularmente beneficioso para generar conjuntos de datos grandes rápidamente mientras se mantiene la precisión.
Pruebas y Resultados
LionGuard fue sometido a pruebas rigurosas contra APIs de moderación existentes y etiquetas revisadas por humanos. Los resultados demostraron no solo una mayor precisión en la detección de contenido dañino, sino también tiempos de procesamiento más rápidos, lo que lo convierte en una solución práctica para las necesidades de moderación en tiempo real.
Limitaciones de las Herramientas de Moderación Actuales
A pesar de sus avances, las herramientas de moderación existentes a menudo luchan con la jerga y las referencias culturales que son comunes en diferentes regiones. Por ejemplo, términos que pueden considerarse ofensivos en Singapur pueden no ser reconocidos como tales en contextos occidentales. Esto resalta la necesidad de soluciones más localizadas.
El Futuro de las Herramientas de Moderación
El desarrollo de LionGuard subraya la importancia de adaptar las herramientas de moderación a las necesidades locales. Aunque está diseñado específicamente para Singapur, los métodos y marcos establecidos pueden aplicarse a otros idiomas y regiones de bajos recursos. Esta adaptabilidad promueve la creación de entornos en línea más seguros en todo el mundo.
Conclusión
LionGuard representa un paso importante hacia adelante en la moderación de contenido, enfatizando la necesidad de enfoques localizados en el manejo de variaciones del lenguaje. A medida que nuestra comunicación sigue evolucionando, las herramientas que usamos para garantizar la seguridad también deben desarrollarse, reflejando las diversas lenguas y culturas que dan forma a nuestras interacciones.
Al centrarse en el contexto local y utilizar tecnologías avanzadas, podemos crear sistemas de moderación más efectivos que atiendan a comunidades específicas y sus lenguajes únicos. Esto no solo mejorará la seguridad de las plataformas en línea, sino que también fomentará un espacio digital más inclusivo.
Título: LionGuard: Building a Contextualized Moderation Classifier to Tackle Localized Unsafe Content
Resumen: As large language models (LLMs) become increasingly prevalent in a wide variety of applications, concerns about the safety of their outputs have become more significant. Most efforts at safety-tuning or moderation today take on a predominantly Western-centric view of safety, especially for toxic, hateful, or violent speech. In this paper, we describe LionGuard, a Singapore-contextualized moderation classifier that can serve as guardrails against unsafe LLM outputs. When assessed on Singlish data, LionGuard outperforms existing widely-used moderation APIs, which are not finetuned for the Singapore context, by 14% (binary) and up to 51% (multi-label). Our work highlights the benefits of localization for moderation classifiers and presents a practical and scalable approach for low-resource languages.
Autores: Jessica Foo, Shaun Khoo
Última actualización: 2024-07-18 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2407.10995
Fuente PDF: https://arxiv.org/pdf/2407.10995
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://platform.openai.com/docs/guides/moderation/overview
- https://developers.perspectiveapi.com/s/about-the-api-attributes-and-languages?language=en_US
- https://huggingface.co/meta-llama/LlamaGuard-7b
- https://www.imda.gov.sg/-/media/imda/files/regulations-and-licensing/regulations/codes-of-practice/codes-of-practice-media/policiesandcontentguidelinesinternetinternecodeofpractice.pdf
- https://huggingface.co/govtech/lionguard-v1
- https://str.sg/3J4U
- https://www.ricemedia.co/pretty-privilege-bbfa/
- https://forums.hardwarezone.com.sg/forums/eat-drink-man-woman.16/
- https://www.imda.gov.sg/-/media/imda/files/regulations-and-licensing/regulations/codes-of-practice/codes-of-practice-media/code-of-practice-for-online-safety.pdf
- https://huggingface.co/spaces/mteb/leaderboard