Sesgo en herramientas de análisis de sentimientos en bengalí
Examinando el impacto del análisis de sentimientos en las identidades y sesgos bengalíes.
― 6 minilectura
Tabla de contenidos
- Visión general del análisis de sentimientos
- Entendiendo el sesgo en las herramientas de análisis de sentimientos
- Un enfoque sociotécnico para el PLN
- Metodología
- Resultados: Sesgo en las herramientas de análisis de sentimientos
- Influencia colonial y brecha digital
- Impactos de las tecnologías de lenguaje
- Recomendaciones y futuras investigaciones
- Conclusión
- Fuente original
- Enlaces de referencia
La colonización ha cambiado la forma en que las personas se ven a sí mismas de muchas maneras diferentes, y estos cambios siguen influyendo en nuestras creencias y sistemas hoy en día. Un área de la que no se ha hablado lo suficiente es cómo las herramientas que analizan sentimientos, como el Análisis de Sentimientos, pueden perpetuar estas ideas y Sesgos coloniales. Este trabajo revisa cómo las herramientas de análisis de sentimientos afectan a las comunidades bengalíes, que han sido moldeadas por una historia de colonización, centrándose particularmente en aspectos de identidad como género, religión y nacionalidad.
Visión general del análisis de sentimientos
El procesamiento de lenguaje natural (PLN) ayuda a las computadoras a entender y responder al lenguaje humano. Un uso común del PLN es el análisis de sentimientos, que intenta determinar el tono emocional de un texto. Aunque esta técnica es popular en lingüística, los investigadores han expresado preocupaciones sobre su efectividad. El análisis de sentimientos busca categorizar emociones, pero a menudo simplifica en exceso los sentimientos humanos complejos y el lenguaje. Los críticos argumentan que estos procesos pueden llevar a resultados injustos y reforzar desigualdades existentes.
Entendiendo el sesgo en las herramientas de análisis de sentimientos
El sesgo se refiere a cuando un sistema favorece injustamente a un grupo sobre otro. En computación, esto puede ocurrir cuando ciertas Identidades, como raza o género, están consistentemente mal representadas o mal entendidas. Investigaciones han demostrado que hay grandes diferencias en los recursos disponibles para diferentes idiomas. Por ejemplo, el inglés tiene muchos más recursos en comparación con el bengalí, a pesar de que ambos idiomas tienen millones de hablantes. Cuando herramientas diseñadas principalmente para hablantes de inglés se aplican a otros idiomas, pueden reflejar visiones obsoletas o sesgadas que no representan con precisión la cultura o el contexto local.
Un enfoque sociotécnico para el PLN
Cuando decimos "sistemas sociotécnicos", nos referimos a tecnologías que son influenciadas por e interactúan con comportamientos humanos y normas sociales. Las herramientas de análisis de sentimientos están moldeadas por las personas que las crean y los datos con los que son entrenadas. La manera en que estas herramientas operan puede afectar cómo las personas interactúan entre sí. Este trabajo tiene como objetivo investigar cómo las herramientas de análisis de sentimientos afectan a las comunidades bengalíes, particularmente en términos de sesgo relacionado con categorías de identidad como género y religión.
Metodología
Para explorar estos temas, realizamos una auditoría de varias herramientas de análisis de sentimientos bengalíes disponibles en línea. Recolectamos datos tanto del Python Package Index como de GitHub, buscando herramientas que pudieran analizar correctamente los sentimientos en bengalí. Después de identificar trece herramientas, examinamos qué tan bien funcionaron en varias categorías de identidad, enfocándonos en aspectos importantes como género, religión y nacionalidad.
Resultados: Sesgo en las herramientas de análisis de sentimientos
Nuestro análisis mostró que diferentes herramientas de análisis de sentimientos a menudo producían diferentes puntuaciones sentimentales para las mismas oraciones. Por ejemplo, al usar la misma oración que expresa una identidad femenina, diferentes herramientas podían asignar muy diferentes calificaciones de sentimiento.
Además, encontramos que cuando las identidades se expresaban directamente, las herramientas a menudo las percibían de manera más negativa en comparación con cuando esas identidades se expresaban indirectamente a través de lenguaje coloquial. Esto demuestra una limitación en cómo estas herramientas entienden la identidad, lo que puede llevar a posibles malinterpretaciones del sentimiento.
Influencia colonial y brecha digital
El impacto continuo del colonialismo en las identidades de las comunidades bengalíes es significativo. Las prácticas coloniales han moldeado cómo se perciben y expresan las identidades, y este legado sigue influyendo en la tecnología actual. La representación desigual de diferentes grupos en el diseño y desarrollo de herramientas de análisis de sentimientos refleja sesgos históricos.
Además, las personas que crean estas herramientas a menudo provienen de orígenes similares, lo que puede llevar a una falta de diversidad en la perspectiva. Esta falta de representación puede reforzar los sesgos existentes y resultar en herramientas de análisis de sentimientos que no consideran todo el espectro de identidades bengalíes.
Impactos de las tecnologías de lenguaje
Cuando las herramientas de análisis de sentimientos son sesgadas, pueden llevar a decisiones perjudiciales. Por ejemplo, si una herramienta malinterpreta la expresión de identidad de un grupo, podría marcar su contenido como inapropiado. Esto puede desanimar a las personas a compartir sus opiniones, limitando discusiones significativas.
Cuando se aplican a la moderación de contenido automatizada, las herramientas de análisis de sentimientos sesgadas pueden identificar erróneamente opiniones no normativas como negativas, lo que lleva a eliminaciones innecesarias de contenido. Esto hace que las comunidades marginadas se sientan aún más aisladas y no escuchadas, reflejando divisiones sociales profundas.
Recomendaciones y futuras investigaciones
Para crear herramientas de análisis de sentimientos más inclusivas, es vital fomentar la colaboración entre desarrolladores de diferentes orígenes. Incluir voces diversas en el proceso de desarrollo puede ayudar a asegurar que las herramientas se diseñen con varias perspectivas en mente.
Investigaciones futuras también deberían centrarse en examinar cómo las herramientas de análisis de sentimientos pueden tener en cuenta mejor las identidades interseccionales. Comprender cómo los aspectos superpuestos de la identidad influyen en el sentimiento puede llevar a evaluaciones más matizadas y justas.
Conclusión
Este trabajo destaca los sesgos presentes en las herramientas de análisis de sentimientos bengalíes y la importancia de entender estos sesgos en un contexto sociocultural más amplio. Al reconocer los factores históricos y sociales que moldean estas tecnologías, podemos trabajar para crear sistemas más equitativos que representen mejor las diversas identidades dentro de las comunidades bengalíes. La colaboración entre desarrolladores de diferentes trasfondos y la investigación continua en análisis de sentimientos pueden ayudar a allanar el camino hacia tecnologías de lenguaje más inclusivas y justas.
Título: The "Colonial Impulse" of Natural Language Processing: An Audit of Bengali Sentiment Analysis Tools and Their Identity-based Biases
Resumen: While colonization has sociohistorically impacted people's identities across various dimensions, those colonial values and biases continue to be perpetuated by sociotechnical systems. One category of sociotechnical systems--sentiment analysis tools--can also perpetuate colonial values and bias, yet less attention has been paid to how such tools may be complicit in perpetuating coloniality, although they are often used to guide various practices (e.g., content moderation). In this paper, we explore potential bias in sentiment analysis tools in the context of Bengali communities that have experienced and continue to experience the impacts of colonialism. Drawing on identity categories most impacted by colonialism amongst local Bengali communities, we focused our analytic attention on gender, religion, and nationality. We conducted an algorithmic audit of all sentiment analysis tools for Bengali, available on the Python package index (PyPI) and GitHub. Despite similar semantic content and structure, our analyses showed that in addition to inconsistencies in output from different tools, Bengali sentiment analysis tools exhibit bias between different identity categories and respond differently to different ways of identity expression. Connecting our findings with colonially shaped sociocultural structures of Bengali communities, we discuss the implications of downstream bias of sentiment analysis tools.
Autores: Dipto Das, Shion Guha, Jed Brubaker, Bryan Semaan
Última actualización: 2024-01-19 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2401.10535
Fuente PDF: https://arxiv.org/pdf/2401.10535
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.