Sci Simple

New Science Research Articles Everyday

# Informática # Computación y lenguaje # Recuperación de información # Aprendizaje automático

Cerrando la Brecha del Conocimiento: La Transformación de Wikipedia en Hindi

Mejorando la Wikipedia en hindi para enriquecer el acceso al conocimiento para hablantes de hindi.

Paramita Das, Amartya Roy, Ritabrata Chakraborty, Animesh Mukherjee

― 6 minilectura


Transformando Wikipedia Transformando Wikipedia en Hindi del contenido en hindi. Un marco para mejorar la accesibilidad
Tabla de contenidos

Wikipedia es un tesoro de información, pero hay un pero: no todos los idiomas son tratados por igual. Mientras que la Wikipedia en inglés tiene millones de artículos, la de hindi se queda bastante atrás. Es como tener una enorme biblioteca llena de libros en un idioma, mientras que la sección del otro idioma apenas tiene contenido. Esta situación crea barreras para los hablantes de hindi que buscan conocimiento. ¿Nuestra misión? Mejorar el flujo de información de la Wikipedia en inglés a la de hindi, haciéndola tan fácil como un pastel para que todos tengan acceso a contenido valioso.

El Problema

El mundo digital es un festín de hechos, pero muchas personas enfrentan una división de información. Por ejemplo, la Wikipedia en hindi tiene solo unos 163,000 artículos en comparación con los impresionantes 6.8 millones disponibles en inglés. Es como un desierto en una ciudad bulliciosa. Esto deja a los hablantes de hindi con ganas de más. A menudo, temas cruciales y personas notables están ausentes en los LRLs (idiomas de bajos recursos) como el hindi debido a que hay menos colaboradores. ¡Imagínate esto: un científico de renombre mundial se menciona en inglés pero no aparece en hindi!

La Necesidad de Cambio

Esta escasez de contenido significa que los hablantes de hindi se están perdiendo información vital. Además, cuando los artículos existen en ambos idiomas, a veces varían mucho. A veces, los matices culturales no se traducen bien. Es como intentar disfrutar de un platillo en un restaurante diferente; a veces los sabores simplemente no coinciden. Para abordar este problema, necesitamos asegurarnos de que el contenido de calidad fluya sin problemas entre los idiomas.

Nuestro Enfoque

Diseñamos un marco sencillo destinado a nivelar el terreno de juego. Así es como funciona:

  1. Recogiendo Conocimiento: Tomamos artículos en inglés actualizados que son ricos en conocimiento y los traducimos al hindi. Si un artículo en inglés está desactualizado, lo mejoramos extrayendo detalles relevantes de fuentes confiables como libros.

  2. Traducción automática: Una vez que reunimos toda la información relevante, usamos traducción automática para convertir el contenido en inglés al hindi. Piensa en ello como un traductor amistoso ayudando a dos amigos a comunicarse.

  3. Evaluando la Calidad: Nuestro objetivo es asegurarnos de que el nuevo contenido en hindi sea de la misma calidad que su contraparte en inglés. Usamos un enfoque de evaluación de dos frentes, evaluándolo a través de procesos automáticos y revisores humanos. Si no cumple con el estándar, lo ajustamos hasta que brille.

  4. Manteniendo la Neutralidad: Dado que Wikipedia es conocida por su postura neutral, nos aseguramos de filtrar cualquier lenguaje subjetivo para que el contenido permanezca imparcial. ¡Sin opiniones, solo los hechos!

El Impacto

Hicimos algunas pruebas y descubrimos que nuestro marco mejoró significativamente la calidad de los artículos de la Wikipedia en hindi. En promedio, mejoramos el contenido en un 65% según las evaluaciones automáticas y un 62% de acuerdo con los juicios humanos. ¡Eso es como transformar un platillo soso en una comida gourmet!

Desafíos que Enfrentamos

Por supuesto, este viaje no está exento de baches. Hay desafíos para asegurarnos de que el contenido transferido no solo sea preciso, sino también relevante. Tenemos que filtrar mucho material y a veces es como buscar una aguja en un pajar. Nuestro objetivo es cerrar las brechas mientras aseguramos que el contenido sea culturalmente apropiado. No queremos servir algo que no resuene con los hablantes de hindi.

Recopilando el Contenido Adecuado

Para mejorar la Wikipedia en hindi, necesitamos información relevante, como reunir buenos ingredientes para una receta. Nos centramos en biografías ya que a menudo siguen estructuras similares en diferentes idiomas. Revisamos una colección de biografías en inglés y hindi, aprovechando los recursos disponibles en bibliotecas en línea para enriquecer nuestros artículos.

  1. Reuniendo Recursos: Encontramos una gran cantidad de escritos biográficos de donde extraer. Estos escritos son una rica fuente de información, como una despensa bien surtida.

  2. Verificando la Información: Nos aseguramos de que la información recolectada estuviera verificada por calidad. Después de todo, ¿quién quiere ingredientes en mal estado en su platillo?

Haciendo que Funcione

Nuestro marco funciona en varias etapas:

  1. Identificando Secciones: Hicimos coincidir secciones en inglés y hindi según su contenido. Piensa en ello como un sistema de compañeros donde emparejamos amigos con intereses similares.

  2. Traduciendo Contenido: El contenido en inglés emparejado se traduce al hindi. Nos aseguramos de elegir las mejores traducciones para garantizar que no haya frases incómodas que confundan al lector.

  3. Agregando Nueva Información: Para los artículos que necesitan un impulso, extraemos detalles de fuentes externas y los integramos en los artículos existentes. ¡Es como agregar un toque de especias para mantener las cosas interesantes!

  4. Refinando el Contenido: Verificamos que no haya sesgos y aseguramos que el contenido se alinee con el tono neutral de Wikipedia. No queremos que debates unilaterales se cuelen en nuestros artículos.

Los Resultados

Después de implementar nuestro marco, quedó claro que nuestro enfoque funcionó de maravilla. Evaluamos el nuevo contenido en hindi generado y encontramos que era informativo, legible y coherente. Los revisores humanos dieron calificaciones altas, mostrando que el esfuerzo valió la pena.

Conclusión

Nuestro marco ligero fomenta el intercambio de conocimiento entre la Wikipedia en inglés y la de hindi. Al mejorar la calidad del contenido, nos aseguramos de que los hablantes de hindi tengan acceso a la misma riqueza de información que disfrutan los hablantes de inglés. Esta iniciativa no solo beneficia a las personas que buscan información sino que también fortalece el compromiso de la comunidad de habla hindi con Wikipedia.

Al final, se trata de derribar barreras y hacer que el conocimiento sea accesible para todos, porque ¿quién no ama una buena historia, sin importar el idioma? Así que brindemos por cerrar la brecha del conocimiento, ¡un artículo a la vez!

Perspectivas Futuras

Mirando hacia adelante, nuestro objetivo es refinar nuestros métodos y explorar nuevas avenidas para enriquecer el contenido. La meta es incluir más voces y temas diversos, asegurando que incluso las figuras menos conocidas obtengan su momento en el centro de atención. Si nos mantenemos enfocados en la calidad y la colaboración, ¡el futuro de Wikipedia multilingüe puede ser tan brillante como un día soleado!

Una Nota Divertida

En el gran buffet del conocimiento, solo queremos asegurarnos de que todos obtengan una porción sabrosa. Después de todo, el conocimiento es como un pastel, ¡está destinado a ser compartido, disfrutado y saboreado por todos! Así que, ¡toma un tenedor y a disfrutar!

Fuente original

Título: On the effective transfer of knowledge from English to Hindi Wikipedia

Resumen: Although Wikipedia is the largest multilingual encyclopedia, it remains inherently incomplete. There is a significant disparity in the quality of content between high-resource languages (HRLs, e.g., English) and low-resource languages (LRLs, e.g., Hindi), with many LRL articles lacking adequate information. To bridge these content gaps, we propose a lightweight framework to enhance knowledge equity between English and Hindi. In case the English Wikipedia page is not up-to-date, our framework extracts relevant information from external resources readily available (such as English books) and adapts it to align with Wikipedia's distinctive style, including its \textit{neutral point of view} (NPOV) policy, using in-context learning capabilities of large language models. The adapted content is then machine-translated into Hindi for integration into the corresponding Wikipedia articles. On the other hand, if the English version is comprehensive and up-to-date, the framework directly transfers knowledge from English to Hindi. Our framework effectively generates new content for Hindi Wikipedia sections, enhancing Hindi Wikipedia articles respectively by 65% and 62% according to automatic and human judgment-based evaluations.

Autores: Paramita Das, Amartya Roy, Ritabrata Chakraborty, Animesh Mukherjee

Última actualización: 2024-12-07 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2412.05708

Fuente PDF: https://arxiv.org/pdf/2412.05708

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares