Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática # Computación y lenguaje

Dando forma al lenguaje para todos: El desafío de la igualdad de género

Promoviendo la inclusividad a través de un lenguaje igualitario en la escritura y la traducción.

Simona Frenda, Andrea Piergentili, Beatrice Savoldi, Marco Madeddu, Martina Rosola, Silvia Casola, Chiara Ferrando, Viviana Patti, Matteo Negri, Luisa Bentivogli

― 7 minilectura


Idioma para Todos Idioma para Todos comunicación. Desafiando el sesgo de género en la
Tabla de contenidos

El Lenguaje inclusivo se trata de asegurarse de que todos se sientan incluidos, sin importar su género. Es usar palabras que no favorezcan a un género sobre otro. Esto se vuelve especialmente complicado en lenguas como el italiano, donde las palabras tienen formas de género específicas. Te puedes preguntar, "¿Por qué importa esto?" Pues bien, las palabras forman nuestros pensamientos, percepciones e incluso nuestro mundo. Usar un lenguaje justo ayuda a que todos se sientan representados y valorados.

El Desafío de la Generación Inclusiva

Para promover el uso del lenguaje inclusivo, hay un desafío que se centra en identificar y transformar expresiones sesgadas en la escritura. Este desafío tiene tres tareas clave:

  1. Encontrar Expresiones con Género: La primera tarea es detectar esas frases engañosas que tienen género en las oraciones.
  2. Reescribir para la Equidad: La segunda tarea es cambiar creativamente esas frases por alternativas neutrales en cuanto al género.
  3. Traducción Justa: La última tarea es asegurarse de que las traducciones del inglés al italiano mantengan la neutralidad de género cuando sea necesario.

Vamos a desglosar cada una de estas tareas.

Tarea 1: Encontrar Expresiones con Género

En la primera tarea, los participantes deben identificar frases que son específicas de género en oraciones italianas. Por ejemplo, si alguien dice "i cittadini" para referirse a un grupo de género mixto, no es muy inclusivo. En lugar de usar términos masculinos para un grupo mixto, queremos frases que reconozcan a todos.

Así que el desafío es entrenar a los sistemas para detectar frases que solo destacan un género, ya sea de manera evidente o sutil. Esto implica observar varias formas como:

  • Masculino/Femenino Sobredimensionado: Usar un término de género para describir a muchas personas, como decir "los ciudadanos" usando solo la forma masculina.
  • Términos Genéricos: Usar términos masculinos para referirse a todos, como "el candidato" que significa cualquier candidato sin importar el género.
  • Género Incongruente: Usar un término de género que no coincide con la persona a la que se refiere, como llamar a una mujer "professore" (un término masculino).

Tarea 2: Reescribir para la Equidad

Después de detectar expresiones de género en la primera tarea, es hora de un poco de creatividad en la segunda tarea. Aquí, los participantes pueden reescribir esas frases en un lenguaje inclusivo. Hay dos estrategias principales:

  1. Oscurecimiento Conservador: Este enfoque evita mencionar el género por completo. Por ejemplo, en lugar de decir "i professori" (los profesores), uno podría decir "il corpo docente" (el cuerpo docente).

  2. Oscurecimiento Innovador: Esta estrategia introduce nuevos términos creativos que son neutrales en cuanto al género. Imagina llamar a un profesor "lǝ professorǝ" en lugar de usar términos claramente masculinos o femeninos.

Al convertir expresiones de género en un lenguaje justo, esta tarea tiene como objetivo hacer la comunicación más inclusiva.

Tarea 3: Traducción Justa

La última tarea adopta un enfoque bilingüe. Se trata de ver qué tan bien las traducciones del inglés al italiano pueden mantener las cosas justas. Supongamos que tienes la frase "Me alegra conocer a médicos tan competentes." En este caso, una traducción ideal sería "Sono felice di conoscere un personale medico così preparato," que evita enfatizar el género.

Esta tarea desafía a los sistemas a manejar tanto traducciones con género como neutrales de manera adecuada. A veces, el género es claro y debe usarse, mientras que otras veces debe evitarse por completo. Un equilibrio delicado, como intentar caminar por la cuerda floja mientras haces malabares.

Conjuntos de Datos para el Desafío

Para que este desafío funcione, se han reunido varios conjuntos de datos. Cada uno proporciona ejemplos para que los modelos aprendan.

  1. GFL-it Corpus: Esta colección incluye textos italianos de documentos oficiales. Los anotadores han marcado las secciones que contienen expresiones de género, facilitando el aprendizaje de los modelos sobre qué buscar.

  2. GeNTE: Este conjunto de pruebas bilingües ayuda con traducciones neutrales en cuanto al género. Incluye oraciones en inglés junto a traducciones italianas con y sin género. El objetivo es ver si los modelos pueden navegar entre estas formas correctamente.

  3. Neo-GATE: Al igual que GeNTE, este conjunto se centra en términos neutrales e innovadores en cuanto al género. Incluye oraciones en inglés que no revelan el género, permitiendo traducciones creativas al italiano.

Estos conjuntos de datos son esenciales para entrenar sistemas y mejorar su comprensión del lenguaje inclusivo.

Evaluando los Modelos

A medida que los participantes se involucran en las tareas, sus resultados se evalúan según criterios específicos. Para la tarea 1, los modelos se puntúan en función de su capacidad para identificar expresiones de género usando un método llamado F1-score, que mide la precisión. Cuantas más coincidencias correctas haya con las anotaciones, mejor.

Para la tarea 2, el enfoque se centra en un clasificador que determina si las oraciones reformuladas son neutrales en cuanto al género o no. El porcentaje de etiquetas correctas ayuda a evaluar el rendimiento.

En la tarea 3, la atención se centra de nuevo en las traducciones. Los modelos necesitan decidir cuándo usar términos de género y cuándo apegarse a un lenguaje neutral. Esto ayuda a mantener la conversación justa e inclusiva.

Limitaciones del Desafío

Aunque el desafío está diseñado para promover el lenguaje inclusivo, no está exento de fallos. Los conjuntos de datos solo abarcan áreas específicas, como documentos oficiales o contextos institucionales concretos. Esto significa que la investigación futura podría beneficiarse de tener una mayor variedad de fuentes y perspectivas.

Además, los enfoques actuales sobre métricas y evaluación pueden ser solo el comienzo. Deberían explorarse métodos más refinados para evaluar los modelos a fondo. También está el hecho de que solo se utiliza un tipo de término neutral en cuanto al género, como el schwa-simple. Existe un mundo de posibilidades para expresar ideas neutrales en cuanto al género.

Consideraciones Éticas

El desafío plantea preguntas éticas importantes. Al trabajar para reducir el lenguaje sesgado por género, el objetivo es elevar las voces de aquellos que a menudo son ignorados. Pero el equipo detrás de este esfuerzo reconoce sus deficiencias, como tener un desequilibrio en su grupo de anotadores.

Además, hay una preocupación válida sobre la accesibilidad. Algunas personas pueden encontrar difícil leer términos que emplean marcadores innovadores neutrales en cuanto al género, especialmente aquellos con dificultades de lectura. Sin embargo, hay espacio para la flexibilidad. Las personas pueden elegir qué términos les funcionan mejor, permitiendo una experiencia más amigable.

El Paradigma del Schwa-Simple

Una herramienta creativa en la caja de herramientas del lenguaje neutral en cuanto al género es el paradigma schwa-simple. Este método reemplaza los términos tradicionales de género por un marcador, ofreciendo flexibilidad. Así es como funciona:

  • Términos masculinos como "professore" pueden ser reemplazados por "professorǝ" para incluir a todos, ya sean hombres, mujeres o no binarios.
  • El paradigma incluye una variedad de formas para cubrir muchas situaciones, proporcionando opciones que se pueden adaptar a diferentes contextos.

Este paradigma es una forma divertida de desafiar las normas lingüísticas convencionales e inspirar inclusión.

Conclusión

La lucha por el lenguaje inclusivo es más que solo un tema de moda; es un movimiento significativo hacia la inclusión y representación. Al identificar, reescribir y traducir el lenguaje para ser justo con todos los géneros, estamos ayudando a moldear un mundo donde todos se sientan reconocidos y valorados.

En resumen, este desafío busca romper barreras en el lenguaje y crear un espacio de comunicación más equitativo. Y aunque queden desafíos, el progreso logrado es un paso en la dirección correcta. ¿Quién diría que las palabras podrían hacer una gran diferencia?

Fuente original

Título: GFG -- Gender-Fair Generation: A CALAMITA Challenge

Resumen: Gender-fair language aims at promoting gender equality by using terms and expressions that include all identities and avoid reinforcing gender stereotypes. Implementing gender-fair strategies is particularly challenging in heavily gender-marked languages, such as Italian. To address this, the Gender-Fair Generation challenge intends to help shift toward gender-fair language in written communication. The challenge, designed to assess and monitor the recognition and generation of gender-fair language in both mono- and cross-lingual scenarios, includes three tasks: (1) the detection of gendered expressions in Italian sentences, (2) the reformulation of gendered expressions into gender-fair alternatives, and (3) the generation of gender-fair language in automatic translation from English to Italian. The challenge relies on three different annotated datasets: the GFL-it corpus, which contains Italian texts extracted from administrative documents provided by the University of Brescia; GeNTE, a bilingual test set for gender-neutral rewriting and translation built upon a subset of the Europarl dataset; and Neo-GATE, a bilingual test set designed to assess the use of non-binary neomorphemes in Italian for both fair formulation and translation tasks. Finally, each task is evaluated with specific metrics: average of F1-score obtained by means of BERTScore computed on each entry of the datasets for task 1, an accuracy measured with a gender-neutral classifier, and a coverage-weighted accuracy for tasks 2 and 3.

Autores: Simona Frenda, Andrea Piergentili, Beatrice Savoldi, Marco Madeddu, Martina Rosola, Silvia Casola, Chiara Ferrando, Viviana Patti, Matteo Negri, Luisa Bentivogli

Última actualización: Dec 30, 2024

Idioma: English

Fuente URL: https://arxiv.org/abs/2412.19168

Fuente PDF: https://arxiv.org/pdf/2412.19168

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares