Die Wissenslücke überbrücken: Die Transformation von Hindi Wikipedia
Die Verbesserung von Wikipedia in Hindi, um den Wissenszugang für Hindi-Sprecher zu bereichern.
Paramita Das, Amartya Roy, Ritabrata Chakraborty, Animesh Mukherjee
― 6 min Lesedauer
Inhaltsverzeichnis
Wikipedia ist ein Schatz voller Infos, aber da gibt's einen Haken: Nicht alle Sprachen werden gleich behandelt. Während die englische Wikipedia Millionen Artikel hat, hinkt die Hindi Wikipedia ordentlich hinterher. Das ist wie eine riesige Bibliothek mit Büchern in einer Sprache, während die Sektion einer anderen Sprache kaum bestückt ist. Diese Situation schafft Barrieren für Hindi-Sprecher, die nach Wissen suchen. Unsere Mission? Den Fluss von Informationen von der englischen zur Hindi Wikipedia zu verbessern, damit jeder ganz easy auf wertvolle Inhalte zugreifen kann.
Das Problem
Die digitale Welt ist ein Fest voller Fakten, aber viele Menschen stehen vor einer Informationskluft. Zum Beispiel hat die Hindi Wikipedia gerade mal etwa 163.000 Artikel, während es in Englisch massive 6,8 Millionen gibt. Das ist wie eine Wüste in einer pulsierenden Stadt. Das lässt Hindi-Sprecher auf der Strecke bleiben. Oft fehlen wichtige Themen und bemerkenswerte Personen in LRLs (low-resource languages) wie Hindi, weil es weniger Mitwirkende gibt. Stell dir vor: Ein weltbekannter Wissenschaftler wird im Englischen erwähnt, aber im Hindi ist er nirgends zu finden!
Der Bedarf an Veränderung
Diese Inhaltsknappheit bedeutet, dass Hindi-Sprecher wichtige Informationen verpassen. Ausserdem können Artikel, die in beiden Sprachen existieren, stark variieren. Manchmal werden kulturelle Nuancen einfach nicht gut übersetzt. Das ist wie der Versuch, ein Gericht in einem anderen Restaurant zu geniessen – manchmal passen die Geschmäcker einfach nicht zusammen. Um dieses Problem anzugehen, müssen wir dafür sorgen, dass hochwertige Inhalte reibungslos zwischen den Sprachen fliessen.
Unser Ansatz
Wir haben ein einfaches Framework entwickelt, das darauf abzielt, die Spielbedingungen anzugleichen. So funktioniert's:
-
Wissen ernten: Wir nehmen aktuelle englische Artikel, die viel Wissen bieten, und übersetzen sie ins Hindi. Wenn ein englischer Artikel veraltet ist, bringen wir ihn auf Vordermann, indem wir relevante Details aus vertrauenswürdigen Quellen wie Büchern extrahieren.
-
Maschinelle Übersetzung: Sobald wir alle relevanten Infos gesammelt haben, nutzen wir maschinelle Übersetzung, um englische Inhalte ins Hindi zu übertragen. Denk daran wie einen freundlichen Übersetzer, der zwei Freunden hilft, zu kommunizieren.
-
Qualität evaluieren: Unser Ziel ist es sicherzustellen, dass die neuen Hindi-Inhalte das gleiche Niveau wie ihre englischen Pendants haben. Wir verwenden einen zweigleisigen Bewertungsansatz und prüfen sie sowohl durch automatisierte Prozesse als auch durch menschliche Reviewer. Wenn sie nicht dem Standard entsprechen, feilen wir daran, bis sie glänzen.
-
Neutralität wahren: Da Wikipedia für seine neutrale Haltung bekannt ist, sorgen wir dafür, dass subjektive Sprache herausgefiltert wird, damit die Inhalte unparteiisch bleiben. Keine Meinungen, nur die Fakten!
Die Auswirkungen
Wir haben ein paar Tests durchgeführt und herausgefunden, dass unser Framework die Qualität der Hindi Wikipedia-Artikel erheblich verbessert hat. Im Durchschnitt haben wir die Inhalte um 65 % basierend auf automatischen Bewertungen und um 62 % laut menschlichen Urteilen verbessert. Das ist wie ein fade Gericht in ein Gourmetessen zu verwandeln!
Herausforderungen, denen wir gegenüberstehen
Natürlich ist diese Reise nicht ohne ihre Schwierigkeiten. Es gibt Herausforderungen, sicherzustellen, dass die übertragenen Inhalte nicht nur genau, sondern auch relevant sind. Wir müssen eine Menge Material durchforsten und manchmal ist das wie die Nadel im Heuhaufen zu suchen. Unser Ziel ist es, die Lücken zu schliessen und gleichzeitig sicherzustellen, dass die Inhalte kulturell angemessen sind. Wir wollen nichts servieren, was bei Hindi-Sprechern nicht ankommt.
Die richtigen Inhalte sammeln
Um die Hindi Wikipedia zu verbessern, brauchen wir relevante Informationen – wie schöne Zutaten für ein Rezept zu sammeln. Wir haben uns auf Biografien konzentriert, da sie oft ähnliche Strukturen über die Sprachen hinweg haben. Wir haben eine Sammlung von Biografien in Englisch und Hindi durchforstet und Ressourcen aus Online-Bibliotheken genutzt, um unsere Artikel zu bereichern.
-
Ressourcen sammeln: Wir haben eine Fülle von biografischen Schriften gefunden, aus denen wir schöpfen können. Diese Schriften sind eine reichhaltige Informationsquelle, wie eine gut gefüllte Vorratskammer.
-
Informationen überprüfen: Wir haben sichergestellt, dass die gesammelten Informationen auf Qualität überprüft wurden. Schliesslich will niemand verdorbene Zutaten in seinem Gericht!
Es zum Laufen bringen
Unser Framework funktioniert in mehreren Phasen:
-
Sektionen identifizieren: Wir haben englische und Hindi-Sektionen basierend auf ihrem Inhalt zusammengebracht. Denk an ein Buddy-System, bei dem wir Freunde paaren, die ähnliche Interessen haben.
-
Inhalte übersetzen: Die zusammengeführten englischen Inhalte werden dann ins Hindi übersetzt. Wir achten darauf, die besten Übersetzungen auszuwählen, damit es keine komischen Phrasen gibt, die den Leser verwirren.
-
Neue Informationen hinzufügen: Für Artikel, die einen Schub brauchen, extrahieren wir Details aus externen Quellen und integrieren sie in die bestehenden Artikel. Das ist wie ein Spritzer Gewürz, um die Sache interessant zu halten!
-
Inhalte verfeinern: Wir prüfen auf mögliche Vorurteile und stellen sicher, dass die Inhalte mit dem neutralen Ton von Wikipedia übereinstimmen. Wir wollen keine einseitigen Debatten in unseren Artikeln haben.
Die Ergebnisse
Nachdem wir unser Framework implementiert haben, wurde schnell klar, dass unser Ansatz Wunder gewirkt hat. Wir haben die neu generierten Hindi-Inhalte bewertet und festgestellt, dass sie informativ, lesbar und kohärent sind. Die menschlichen Reviewer haben hohe Noten vergeben, was zeigt, dass sich die Mühe gelohnt hat.
Fazit
Unser leichtgewichtiges Framework fördert den Wissensaustausch zwischen der englischen und der Hindi Wikipedia. Indem wir die Qualität der Inhalte verbessern, stellen wir sicher, dass Hindi-Sprecher Zugang zu dem gleichen Wissensschatz haben, den auch Englisch-Sprecher geniessen. Diese Initiative kommt nicht nur Einzelnen zugute, die nach Informationen suchen, sondern stärkt auch das Engagement der Hindi-sprechenden Gemeinschaft in Wikipedia.
Am Ende geht es darum, Barrieren abzubauen und Wissen für alle zugänglich zu machen – denn wer liebt nicht eine gute Geschichte, egal in welcher Sprache? Also, auf zur Überbrückung der Wissenskluft, Artikel für Artikel!
Zukünftige Aussichten
Wenn wir nach vorne schauen, wollen wir unsere Methoden verfeinern und neue Wege erkunden, um Inhalte zu bereichern. Das Ziel ist es, mehr vielfältige Stimmen und Themen einzubeziehen, sodass auch weniger bekannte Figuren ihren Moment im Rampenlicht bekommen. Wenn wir unseren Fokus auf Qualität und Zusammenarbeit behalten, kann die Zukunft von mehrsprachiger Wikipedia so strahlend sein wie ein sonniger Tag!
Ein lockerer Hinweis
Im grossen Buffet des Wissens wollen wir nur sicherstellen, dass jeder ein leckeres Stück bekommt! Schliesslich ist Wissen wie Kuchen – es soll geteilt, genossen und von allen geschätzt werden. Also, schnapp dir eine Gabel und greif zu!
Originalquelle
Titel: On the effective transfer of knowledge from English to Hindi Wikipedia
Zusammenfassung: Although Wikipedia is the largest multilingual encyclopedia, it remains inherently incomplete. There is a significant disparity in the quality of content between high-resource languages (HRLs, e.g., English) and low-resource languages (LRLs, e.g., Hindi), with many LRL articles lacking adequate information. To bridge these content gaps, we propose a lightweight framework to enhance knowledge equity between English and Hindi. In case the English Wikipedia page is not up-to-date, our framework extracts relevant information from external resources readily available (such as English books) and adapts it to align with Wikipedia's distinctive style, including its \textit{neutral point of view} (NPOV) policy, using in-context learning capabilities of large language models. The adapted content is then machine-translated into Hindi for integration into the corresponding Wikipedia articles. On the other hand, if the English version is comprehensive and up-to-date, the framework directly transfers knowledge from English to Hindi. Our framework effectively generates new content for Hindi Wikipedia sections, enhancing Hindi Wikipedia articles respectively by 65% and 62% according to automatic and human judgment-based evaluations.
Autoren: Paramita Das, Amartya Roy, Ritabrata Chakraborty, Animesh Mukherjee
Letzte Aktualisierung: 2024-12-07 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2412.05708
Quell-PDF: https://arxiv.org/pdf/2412.05708
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://en.wikipedia.org/wiki/List_of_Wikipedias
- https://ai4bharat.iitm.ac.in/indic-trans2/
- https://github.com/paramita08/wikiTransfer
- https://www.visualcapitalist.com/100-most-spoken-languages/
- https://www.mediawiki.org/wiki/API:Get_the_contents_of_a_page
- https://pypi.org/project/wikipedia/
- https://huggingface.co/sentence-transformers/all-MiniLM-L12-v2
- https://huggingface.co/intfloat/multilingual-e5-large
- https://github.com/langchain-ai/langchain
- https://huggingface.co/sentence-transformers/all-mpnet-base-v2
- https://tinyurl.com/cb7yv3tt
- https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md
- https://doi.org/10.1609/icwsm.v16i1.19271