MayanV: Uniendo Culturas a Través del Idioma
Nuevo recurso apoya los idiomas mayas y mejora la comunicación con el español.
― 9 minilectura
Tabla de contenidos
- La Importancia de las Lenguas Mayas
- MayanV: Un Nuevo Recurso
- El Estado Actual de la Representación
- Contexto Histórico de las Lenguas Mayas
- Desafíos en el Lenguaje y la Tecnología
- El Papel de MayanV en la Solución de Estos Problemas
- Evaluando el Impacto de MayanV
- La Importancia del Lenguaje Informal en la Tecnología
- Direcciones Futuras para la Investigación y el Desarrollo
- Conclusión
- Fuente original
- Enlaces de referencia
Las lenguas mayas son un grupo importante de idiomas hablados por millones de personas, principalmente en Guatemala, Belice y el sur de México. Estos idiomas tienen una rica historia y una gran importancia cultural, pero a menudo se pasan por alto en términos de recursos y representación en tecnología. Este artículo se centra en el desarrollo de un nuevo recurso llamado MayanV, que consiste en Conjuntos de datos que conectan varios idiomas mayas con el español. Estos conjuntos de datos están diseñados para reflejar el Lenguaje informal y cotidiano, haciéndolos más relevantes para la comunicación diaria entre hablantes.
La Importancia de las Lenguas Mayas
Las lenguas mayas son habladas por una parte significativa de la población en Guatemala, con muchas personas indígenas usando estos idiomas en su vida diaria. Sin embargo, a pesar del número de hablantes, estos idiomas no tienen una fuerte presencia en línea ni representación en herramientas digitales. Esta falta de visibilidad hace que sea complicado para los hablantes acceder a la tecnología moderna y a la información. Muchas personas todavía asocian estos idiomas con estereotipos negativos, lo que contribuye a su declive.
La introducción de recursos que apoyen las lenguas mayas puede ayudar a cerrar esta brecha. Al desarrollar herramientas para la traducción y la comunicación, podemos mejorar el acceso a la información y la tecnología para las comunidades indígenas. El objetivo es crear un sistema que incorpore los patrones de habla diaria y el lenguaje informal usado por los hablantes nativos.
MayanV: Un Nuevo Recurso
MayanV es una colección de conjuntos de datos que incluyen textos paralelos en varios idiomas mayas y español. Estos textos provienen de fuentes nativas oficiales y se centran en el lenguaje informal utilizado en situaciones cotidianas. El objetivo es proporcionar un recurso que represente con precisión cómo la gente realmente habla e interactúa en su vida diaria.
MayanV se diferencia de otros recursos disponibles, que a menudo usan un lenguaje formal o arcaico que no refleja el uso real de los hablantes. Los conjuntos de datos en MayanV están diseñados para llenar este vacío al capturar el lenguaje informal, familiar y cotidiano que es más comúnmente usado entre los hablantes.
El Estado Actual de la Representación
Aunque hay muchos esfuerzos para documentar y preservar las lenguas mayas, los recursos disponibles para la Traducción automática y otras tecnologías lingüísticas son bastante limitados. La mayoría de los conjuntos de datos existentes se centran en textos formales, como textos religiosos, que no corresponden a las conversaciones casuales que tienen lugar en la vida diaria. Recursos como la Biblia o textos de organizaciones religiosas, aunque disponibles, no representan con precisión cómo la gente realmente habla.
En contraste, MayanV ofrece una solución práctica al proporcionar ejemplos reales del uso del lenguaje. Esto asegura que los sistemas de traducción y otras tecnologías lingüísticas puedan desarrollarse para atender mejor las necesidades de los hablantes mayas, permitiéndoles comunicarse de manera más efectiva tanto en sus idiomas como en español.
Contexto Histórico de las Lenguas Mayas
La familia de lenguas mayas consiste en varios idiomas hablados a lo largo de Guatemala y países vecinos. La lengua maya documentada más antigua data de alrededor del 300 a.C., escrita usando un guion único que combina logogramas y silabogramas. Hoy en día, varios idiomas mayas se escriben usando el alfabeto latino, con símbolos adicionales para reflejar sonidos específicos.
Muchos de estos idiomas tienen un amplio rango de hablantes, mientras que otros están en riesgo de desaparecer. Por ejemplo, idiomas como el K'iche', el maya yucateco y el Q'eqchi' son hablados por grandes poblaciones, mientras que idiomas como el Itza' tienen muy pocos hablantes restantes. A pesar de ser comúnmente usados en la vida diaria, estos idiomas a menudo carecen de reconocimiento oficial y no figuran de manera prominente en la educación, el gobierno o los medios.
En áreas rurales, muchas personas son bilingües en español y su lengua maya nativa. Sin embargo, el acceso a la educación y recursos en sus idiomas nativos sigue siendo limitado. Esta falta de apoyo puede conducir a un declive en el uso del idioma, especialmente entre las generaciones más jóvenes.
Desafíos en el Lenguaje y la Tecnología
Los desafíos que enfrentan las lenguas mayas en términos de tecnología son multifacéticos. Primero, hay una escasez de recursos digitales que reflejen el uso informal de estos idiomas. La mayoría de los textos disponibles son demasiado formales o se centran en dominios específicos, como la religión o la educación. Esto dificulta el desarrollo de sistemas de traducción automática efectivos que puedan manejar el lenguaje cotidiano.
Además, las políticas históricas a menudo han desalentado el uso de las lenguas nativas en la educación. Como resultado, muchos hablantes sienten que sus propios idiomas son más difíciles de usar que el español. Aunque ha habido algunos esfuerzos para implementar programas de educación bilingüe, a menudo no funcionan bien en la práctica.
Además, la alfabetización limitada en lenguas mayas, combinada con la idea de que estos idiomas son menos valiosos que el español, contribuye a un ciclo de declive. Como consecuencia, muchos hablantes son reacios a usar sus idiomas en entornos públicos o profesionales.
El Papel de MayanV en la Solución de Estos Problemas
Para abordar estos desafíos, desarrollamos MayanV, un recurso especializado que se centra en el lenguaje informal. Los conjuntos de datos incluidos en MayanV han sido cuidadosamente seleccionados para reflejar la forma en que las personas realmente se comunican. Esto aumenta las posibilidades de construir sistemas de traducción automática efectivos que satisfagan las necesidades de los hablantes comunes.
La creación de MayanV implicó recopilar datos de varias fuentes, centrándose principalmente en textos bilingües en lenguas mayas y español. El objetivo era asegurar que los datos resultantes representen con precisión el lenguaje informal utilizado por los hablantes en sus interacciones diarias.
Al hacer MayanV disponible públicamente, animamos a otros investigadores y desarrolladores a contribuir en el campo de la tecnología lingüística para las lenguas mayas. Este enfoque colaborativo puede ayudar a crear más herramientas que atiendan las necesidades únicas de estas comunidades lingüísticas.
Evaluando el Impacto de MayanV
Después de desarrollar MayanV, entrenamos varios modelos de traducción automática para ver cuán efectivamente podían usar este recurso. Nuestra evaluación se centró en comparar modelos que tenían acceso a los conjuntos de datos de MayanV con aquellos que no. Esto nos permitió evaluar la diferencia que hacía tener un recurso diseñado para el lenguaje cotidiano en términos de calidad de traducción.
Descubrimos que los modelos entrenados con MayanV superaron consistentemente a aquellos que no incluían este recurso. Esto resalta la importancia de usar conjuntos de datos que reflejen el uso real del lenguaje. Las mejoras observadas en la calidad de la traducción sugieren que muchos recursos existentes no representan adecuadamente cómo la gente se comunica en sus lenguas nativas.
La Importancia del Lenguaje Informal en la Tecnología
Al centrarnos en el lenguaje informal, podemos crear herramientas tecnológicas lingüísticas más precisas y relevantes. Estas herramientas pueden satisfacer mejor las necesidades de los hablantes, permitiéndoles comunicarse más libremente y acceder a información importante. Ya sea para educación, salud o comunicación diaria, tener un recurso que capture las sutilezas del lenguaje informal es esencial.
El éxito de MayanV sirve como un recordatorio de la necesidad de priorizar las voces de los hablantes al desarrollar tecnologías lingüísticas. Al asegurarnos de que los recursos reflejen las realidades de la vida diaria, podemos crear sistemas que verdaderamente satisfagan las necesidades de las comunidades.
Direcciones Futuras para la Investigación y el Desarrollo
De cara al futuro, hay varias áreas clave para la investigación y el desarrollo. Primero, hay una necesidad de continuar trabajando en la recopilación y curaduría de más conjuntos de datos informales. Esto ayudará a enriquecer aún más los recursos disponibles para la traducción automática y otras tecnologías lingüísticas.
Además, refinar los modelos existentes a través de un ajuste fino con conjuntos de datos como MayanV también llevará a una mejor calidad de traducción. Los investigadores deben centrarse en colaborar con las comunidades lingüísticas para obtener información sobre su uso del idioma y crear herramientas más efectivas.
Por último, será crucial concienciar sobre la importancia de las lenguas mayas y su representación en la tecnología. Se deben hacer esfuerzos para abogar por la inclusión de estos idiomas en materiales educativos, herramientas digitales y políticas públicas.
Conclusión
Las lenguas mayas son componentes ricos y vitales de la identidad cultural de millones de hablantes. Sin embargo, enfrentan desafíos significativos en términos de representación y acceso a la tecnología. Al desarrollar recursos como MayanV, podemos trabajar para cerrar la brecha entre estos idiomas y la tecnología moderna.
A través de la cuidadosa curaduría de conjuntos de datos que reflejan el lenguaje informal, podemos mejorar los sistemas de traducción y otras herramientas que atienden las necesidades de los hablantes. A medida que continuamos construyendo sobre esta base, podemos empoderar a las comunidades mayas y promover el uso de sus idiomas en la vida cotidiana.
El trabajo realizado con MayanV es solo el comienzo. Los esfuerzos continuos son esenciales para asegurar que las lenguas mayas prosperen en la era digital, proporcionando a los hablantes los recursos que necesitan para comunicarse, conectarse y mantener su patrimonio cultural.
Título: Curated Datasets and Neural Models for Machine Translation of Informal Registers between Mayan and Spanish Vernaculars
Resumen: The Mayan languages comprise a language family with an ancient history, millions of speakers, and immense cultural value, that, nevertheless, remains severely underrepresented in terms of resources and global exposure. In this paper we develop, curate, and publicly release a set of corpora in several Mayan languages spoken in Guatemala and Southern Mexico, which we call MayanV. The datasets are parallel with Spanish, the dominant language of the region, and are taken from official native sources focused on representing informal, day-to-day, and non-domain-specific language. As such, and according to our dialectometric analysis, they differ in register from most other available resources. Additionally, we present neural machine translation models, trained on as many resources and Mayan languages as possible, and evaluated exclusively on our datasets. We observe lexical divergences between the dialects of Spanish in our resources and the more widespread written standard of Spanish, and that resources other than the ones we present do not seem to improve translation performance, indicating that many such resources may not accurately capture common, real-life language usage. The MayanV dataset is available at https://github.com/transducens/mayanv.
Autores: Andrés Lou, Juan Antonio Pérez-Ortiz, Felipe Sánchez-Martínez, Víctor M. Sánchez-Cartagena
Última actualización: 2024-04-11 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2404.07673
Fuente PDF: https://arxiv.org/pdf/2404.07673
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/transducens/mayanv
- https://creativecommons.org/licenses/by-sa/4.0/deed.en
- https://github.com/transducens/mayanv/
- https://www.almg.org.gt/nosotros/historia
- https://plfm.org/quienes-somos/historia
- https://site.inali.gob.mx/Micrositios/normas/index.html
- https://commons.wikimedia.org/wiki/File:Mayan_languages_spoken_in_the_depicted_area.pdf
- https://github.com/openlanguagedata/flores
- https://github.com/jsvine/pdfplumber
- https://www.acm.org/code-of-ethics
- https://aclweb.org/anthology/anthology.bib.gz