Combler le fossé de la connaissance : la transformation de Wikipédia en hindi
Améliorer Wikipedia en hindi pour enrichir l'accès à la connaissance pour les locuteurs de hindi.
Paramita Das, Amartya Roy, Ritabrata Chakraborty, Animesh Mukherjee
― 6 min lire
Table des matières
Wikipedia est un vrai trésor d'infos, mais y'a un hic : toutes les langues ne sont pas traitées à égalité. Pendant que la version anglaise a des millions d'articles, celle en hindi est à la traîne. C'est comme avoir une énorme bibliothèque pleine de livres dans une langue, pendant que l'autre langue a à peine de quoi se remplir. Du coup, ça crée des barrières pour ceux qui parlent hindi et qui cherchent à s'informer. Notre mission ? Améliorer le flux d'infos de l'anglais vers le hindi sur Wikipedia, pour que tout le monde puisse accéder facilement à du contenu précieux.
Le Problème
Le monde numérique est un festin de faits, mais beaucoup de gens se retrouvent avec un fossé d'infos. Par exemple, Hindi Wikipedia a à peine 163 000 articles contre les 6,8 millions en anglais. C'est comme un désert au milieu d'une ville animée. Du coup, ceux qui parlent hindi en veulent plus. Souvent, des sujets cruciaux et des personnalités importantes sont absents dans les LRL (langues à faibles ressources) comme le hindi à cause de moins de contributeurs. Imagine ça : un scientifique de renommée mondiale mentionné en anglais mais introuvable en hindi !
Le Besoin de Changement
Ce manque de contenu fait que les gens qui parlent hindi passent à côté d’infos vitales. En plus, quand des articles existent dans les deux langues, ils peuvent varier énormément. Parfois, les nuances culturelles ne se traduisent pas bien. C'est comme essayer de déguster un plat dans un autre resto—parfois, les saveurs s'accordent pas. Pour régler ça, on doit s'assurer que le contenu de qualité circule bien entre les langues.
Notre Approche
On a mis en place un cadre simple pour équilibrer les choses. Voici comment ça se passe :
-
Récolte de Connaissances : On prend des articles d'anglais à jour riches en infos et on les traduit en hindi. Si un article anglais est obsolète, on l'améliore en extrayant des détails d' sources fiables comme des livres.
-
Traduction automatique : Une fois qu'on a toutes les infos nécessaires, on utilise la traduction automatique pour convertir le contenu anglais en hindi. Pense à ça comme un traducteur sympa aidant deux potes à communiquer.
-
Évaluation de la Qualité : Notre objectif est de s'assurer que le nouveau contenu hindi soit de la même qualité que son homologue anglais. On utilise une approche double d'évaluation, en le testant à travers des processus automatisés et des relecteurs humains. Si ça ne correspond pas, on modifie jusqu'à ce que ça brille.
-
Neutralité : Comme Wikipedia est connue pour son impartialité, on filtre tout langage subjectif pour que le contenu reste neutre. Pas d'opinions, juste des faits !
L'Impact
On a fait quelques tests et on a constaté que notre cadre a nettement amélioré la qualité des articles en hindi. En moyenne, on a amélioré le contenu de 65 % selon les évaluations automatiques et de 62 % selon les jugements humains. C'est comme transformer un plat banal en un repas gastronomique !
Les Défis
Bien sûr, ce chemin n'est pas sans obstacles. Il y a des défis à s'assurer que le contenu transféré soit non seulement précis mais aussi pertinent. On doit passer au crible beaucoup de matériel et parfois, c'est comme chercher une aiguille dans une meule de foin. Notre but, c'est de combler les lacunes tout en veillant à ce que le contenu reste culturellement approprié. On veut pas servir des trucs qui ne résonnent pas avec les gens qui parlent hindi.
Collecte du Bon Contenu
Pour améliorer Hindi Wikipedia, on a besoin d'infos pertinentes—comme rassembler de bons ingrédients pour une recette. On s'est concentrés sur les biographies car elles suivent souvent des structures similaires entre les langues. On a fouillé dans une collection de biographies en anglais et en hindi, utilisant des ressources disponibles dans des bibliothèques en ligne pour enrichir nos articles.
-
Collecte de Ressources : On a trouvé une pléthore d'écrits biographiques à exploiter. Ces écrits sont une riche source d'infos, comme un garde-manger bien garni.
-
Vérification des Infos : On a veillé à ce que les infos collectées soient vérifiées pour leur qualité. Après tout, qui veut d'ingrédients pourris dans son plat ?
Faire en Sorte que Ça Fonctionne
Notre cadre fonctionne en plusieurs étapes :
-
Identification des Sections : On fait correspondre les sections anglaises et hindi selon leur contenu. Pense à ça comme un système d'amitié où on associe des amis qui partagent des intérêts similaires.
-
Traduction du Contenu : Le contenu anglais correspondant est ensuite traduit en hindi. On s'assure de choisir les meilleures traductions pour qu'il n'y ait pas de phrases maladroites qui dérouteraient le lecteur.
-
Ajout de Nouvelles Infos : Pour les articles qui ont besoin d'un coup de pouce, on extrait des détails de sources externes et les intègre dans les articles existants. C'est comme ajouter une pincée d'épices pour pimenter le tout !
-
Affinage du Contenu : On vérifie les biais et s'assure que le contenu reste cohérent avec le ton neutre de Wikipedia. On veut pas de débats unilatéraux qui s'invitent dans nos articles.
Les Résultats
Après avoir mis notre cadre en place, il est devenu clair que notre approche a fait des merveilles. On a évalué le contenu hindi nouvellement généré et on l'a trouvé informatif, lisible et cohérent. Les relecteurs humains ont attribué de bonnes notes, prouvant que l'effort a payé.
Conclusion
Notre cadre léger favorise le partage de connaissances entre les versions anglaise et hindi de Wikipedia. En améliorant la qualité du contenu, on s'assure que ceux qui parlent hindi aient accès à la même richesse d’infos que ceux qui parlent anglais. Cette initiative profite non seulement aux individus en quête d’infos mais renforce aussi l'engagement de la communauté hindi avec Wikipedia.
Au final, c'est tout sur le fait de briser les barrières et rendre la connaissance accessible à tous—parce que qui n'aime pas une bonne histoire, quelle que soit la langue ? Alors, levons nos verres pour combler le fossé des connaissances, un article à la fois !
Perspectives d'Avenir
En regardant vers l'avenir, on vise à affiner nos méthodes et explorer de nouvelles voies pour enrichir le contenu. Le but, c'est d'inclure des voix et des sujets plus divers, pour s'assurer que même les figures moins connues aient leur moment sous les projecteurs. Si on garde notre attention sur la qualité et la collaboration, l'avenir de Wikipedia multilingue peut être aussi radieux qu'une belle journée ensoleillée !
Une Petite Note Amusante
Dans le grand buffet de la connaissance, on veut juste s'assurer que tout le monde obtienne une part délicieuse ! Après tout, la connaissance, c'est comme une tarte—ça doit être partagé, apprécié et savouré par tous. Alors, prends une fourchette et creuse-toi !
Source originale
Titre: On the effective transfer of knowledge from English to Hindi Wikipedia
Résumé: Although Wikipedia is the largest multilingual encyclopedia, it remains inherently incomplete. There is a significant disparity in the quality of content between high-resource languages (HRLs, e.g., English) and low-resource languages (LRLs, e.g., Hindi), with many LRL articles lacking adequate information. To bridge these content gaps, we propose a lightweight framework to enhance knowledge equity between English and Hindi. In case the English Wikipedia page is not up-to-date, our framework extracts relevant information from external resources readily available (such as English books) and adapts it to align with Wikipedia's distinctive style, including its \textit{neutral point of view} (NPOV) policy, using in-context learning capabilities of large language models. The adapted content is then machine-translated into Hindi for integration into the corresponding Wikipedia articles. On the other hand, if the English version is comprehensive and up-to-date, the framework directly transfers knowledge from English to Hindi. Our framework effectively generates new content for Hindi Wikipedia sections, enhancing Hindi Wikipedia articles respectively by 65% and 62% according to automatic and human judgment-based evaluations.
Auteurs: Paramita Das, Amartya Roy, Ritabrata Chakraborty, Animesh Mukherjee
Dernière mise à jour: 2024-12-07 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2412.05708
Source PDF: https://arxiv.org/pdf/2412.05708
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://en.wikipedia.org/wiki/List_of_Wikipedias
- https://ai4bharat.iitm.ac.in/indic-trans2/
- https://github.com/paramita08/wikiTransfer
- https://www.visualcapitalist.com/100-most-spoken-languages/
- https://www.mediawiki.org/wiki/API:Get_the_contents_of_a_page
- https://pypi.org/project/wikipedia/
- https://huggingface.co/sentence-transformers/all-MiniLM-L12-v2
- https://huggingface.co/intfloat/multilingual-e5-large
- https://github.com/langchain-ai/langchain
- https://huggingface.co/sentence-transformers/all-mpnet-base-v2
- https://tinyurl.com/cb7yv3tt
- https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md
- https://doi.org/10.1609/icwsm.v16i1.19271