Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache

Die Qualität auf der ägyptischen arabischen Wikipedia verbessern

Anpassung von Vorlagen zur Übersetzung, um die kulturelle Darstellung zu verbessern.

― 6 min Lesedauer


Die ägyptische WikipediaDie ägyptische Wikipediaaufpeppenbesseren Content.Schlechte Übersetzungen angehen für
Inhaltsverzeichnis

Wikipedia ist eine beliebte Online-Enzyklopädie, die es jedem ermöglicht, Artikel zu schreiben und zu bearbeiten. Sie hat viele Ausgaben in verschiedenen Sprachen, einschliesslich Arabisch. Allerdings haben einige Ausgaben, wie die ägyptische arabische Wikipedia, Probleme mit der Qualität ihrer Artikel. Viele Artikel werden mit einfachen Vorlagen erstellt, die Inhalte aus dem Englischen übersetzen, ohne menschliches Eingreifen. Das führt zu vielen Artikeln von geringer Qualität, die die ägyptische Kultur und den Dialekt nicht genau widerspiegeln. Dieser Artikel diskutiert, wie man diese schlecht übersetzten Artikel identifizieren kann und wie man die allgemeine Qualität der ägyptischen arabischen Wikipedia verbessern kann.

Probleme mit vorlagenbasierter Übersetzung

Die ägyptische arabische Wikipedia hat eine erhebliche Anzahl von Artikeln, die automatisch mit Vorlagen erstellt wurden. Diese Vorlagen übersetzen Inhalte direkt aus dem Englischen, was dazu führt, dass die Artikel oft an Tiefe und kultureller Relevanz fehlen. Da diese Übersetzungen nicht von Menschen überprüft werden, sind viele Artikel voller Fehler und spiegeln nicht die echten Ansichten oder Erfahrungen der ägyptischen Menschen wider. Das stellt eine Herausforderung für den Hauptzweck von Wikipedia dar, nämlich wertvolle und genaue Informationen von Menschen für Menschen bereitzustellen.

Warum ist das wichtig?

Die Probleme mit der vorlagenbasierten Übersetzung wirken sich nicht nur auf die Qualität der Artikel aus, sondern auch darauf, wie Sprachmodelle und andere NLP-Systeme (Natural Language Processing) funktionieren. Wenn diese Modelle mit Inhalten trainiert werden, die nicht reichhaltig oder vielfältig sind, könnten sie die Sprache oder Kultur nicht genau darstellen. Das kann zu Missverständnissen oder verzerrten Darstellungen in verschiedenen Anwendungen führen, die auf diese Modelle angewiesen sind.

Analyse der arabischen Wikipedia-Ausgaben

Um das Ausmass der Probleme zu verstehen, haben wir uns drei Ausgaben der arabischen Wikipedia angesehen: die Standard-Arabisch-Ausgabe, die marokkanische Arabisch-Ausgabe und die ägyptische Arabisch-Ausgabe. Wir haben uns darauf konzentriert, die Qualität, Dichte und menschlichen Beiträge der Artikel über diese Ausgaben hinweg zu vergleichen.

Datensammlung

Um Informationen zu sammeln, haben wir spezifische Tools verwendet, um Daten über die Artikel zu erfassen. Diese Daten umfassten die Gesamtzahl der Bearbeitungen, die Anzahl der Autoren, die Grösse der Artikel in Bezug auf Bytes, Zeichen und Wörter sowie das Erstellungsdatum jedes Artikels. Wir haben speziell untersucht, wie viele Artikel von Bots und wie viele von Menschen erstellt wurden.

Beobachtungen

  1. Gesamtartikel: Die ägyptische arabische Wikipedia hat eine hohe Anzahl von Artikeln im Vergleich zur Standard-Arabisch-Version. Das bedeutet aber nicht, dass diese Artikel von guter Qualität sind. Viele sind einfach Vorlagenübersetzungen.

  2. Kurzer Inhalt: Ein grosser Teil der Artikel in der ägyptischen Ausgabe ist sehr kurz, oft weniger als 50 Wörter. Das zeigt, dass es viel flachen Inhalt gibt, der den Lesern keine wertvollen Informationen bietet.

  3. Mangel an Vielfalt: Die Artikel in der ägyptischen arabischen Wikipedia fehlen oft an lexikalischer Reichhaltigkeit. Das bedeutet, dass es nicht viele einzigartige Wörter oder Sprachvariationen gibt, was das Lesen langweilig und wenig informativ macht.

Statistische Ergebnisse

  • Dichte: Die ägyptische arabische Wikipedia hat viele Artikel, bietet aber oft keine detaillierte Abdeckung von Themen.
  • Qualität: Die Qualität der Artikel ist niedriger als die der anderen beiden Ausgaben, wobei viele Artikel direkte Übersetzungen sind, die bei Muttersprachlern nicht gut ankommen.
  • Menschlicher Beitrag: Eine erhebliche Anzahl von Artikeln wurde ohne wesentlichen menschlichen Input erstellt, was Bedenken hinsichtlich ihrer Zuverlässigkeit aufwirft.

Qualität des Inhalts

Die Analyse der Inhaltsqualität umfasst, wie vielfältig und reichhaltig der Wortschatz in den Artikeln ist. Wir haben mehrere Methoden verwendet, um dies zu messen und die drei arabischen Wikipedia-Ausgaben zu vergleichen.

Lexikalische Reichhaltigkeit

Um zu bestimmen, wie reich die Sprache in den Artikeln ist, haben wir Kennzahlen berechnet, die widerspiegeln, wie viele verschiedene Wörter im Verhältnis zur Gesamtanzahl der Wörter verwendet werden. Ein niedriges Verhältnis deutet darauf hin, dass viele Artikel möglicherweise dieselben gängigen Phrasen wiederholt verwenden, was ein Zeichen für Inhalte von geringer Qualität ist.

Doppelte Phrasen

Wir haben nach häufigen Phrasen gesucht, die in den Artikeln wiederholt werden, was auf eine Vorlagenübersetzung hindeuten könnte. In der ägyptischen Ausgabe fanden wir viele Phrasen, die wiederverwendet wurden, was zeigt, dass die automatischen Übersetzungen stark auf spezifischen Phrasen beruhten und nicht auf einzigartigen Inhalten.

Irreführende menschliche Beteiligung

Es ist wichtig zu verstehen, wer zu den Artikeln beiträgt. In der ägyptischen arabischen Wikipedia scheint es zwar, dass viele Artikel von menschlichen Benutzern erstellt werden, aber viele dieser Benutzer verwenden einfach Vorlagen, ohne sie richtig zu überprüfen.

Analyse der Mitwirkenden

Durch die Untersuchung, wer die Artikel erstellt hat, fanden wir heraus, dass eine kleine Anzahl von Benutzern für eine grosse Anzahl von Artikeln in der ägyptischen Wikipedia verantwortlich war. Das deutet darauf hin, dass, obwohl viele Mitwirkende aufgelistet sind, der tatsächliche Input der Gemeinschaft minimal ist, was nicht mit Wikipedias Ziel übereinstimmt, eine kollaborative Anstrengung zu sein.

Aufbau eines Erkennungssystems

Um die Probleme mit der Vorlagenübersetzung anzugehen, haben wir ein System vorgeschlagen, um Artikel zu identifizieren, die schlecht übersetzt wurden. Unser Ansatz umfasst:

  1. Datenfilterung: Wir haben Regeln festgelegt, um zwischen echt beigetragenen Artikeln und solchen, die über Vorlagen erstellt wurden, zu unterscheiden. Das hilft uns zu verstehen, welche Artikel Aufmerksamkeit benötigen.

  2. Maschinenlern-Klassifizierer: Wir haben Klassifizierer entwickelt, die Metadaten über die Artikel, wie deren Länge und die Anzahl der Bearbeitungen, nutzen, um zu klassifizieren, ob sie menschlich erstellt oder vorlagenübersetzt sind.

  3. Tests und Evaluierung: Wir haben unsere Klassifizierer getestet, um zu sehen, wie gut sie bei der Identifizierung der problematischen Artikel abschneiden. Die Klassifizierer zeigten eine starke Leistung, was bedeutet, dass sie effektiv helfen können, Inhalte von niedriger Qualität herauszufiltern.

Online-Anwendung

Nachdem wir unser Erkennungssystem entwickelt haben, haben wir es als Online-Tool zugänglich gemacht. Dieses Tool ermöglicht es Benutzern, Artikel einzugeben und Feedback zu erhalten, ob sie wahrscheinlich gut geschrieben oder schlecht übersetzt sind.

Funktionen des Tools

  • Metadatenanzeige: Das Tool zeigt wichtige Details zu jedem Artikel an, wie die Anzahl der Bearbeitungen und Mitwirkenden.
  • Klassifizierung: Es klassifiziert den Artikel automatisch als entweder menschlich erstellt oder vorlagenübersetzt.
  • Benutzerfreundliche Oberfläche: Die Anwendung ist so gestaltet, dass sie einfach zu bedienen ist, sodass die Leute schnell die Qualität der Artikel überprüfen können.

Fazit

Die automatische Übersetzung von Artikeln in der ägyptischen arabischen Wikipedia mithilfe von Vorlagen stellt mehrere Herausforderungen dar, darunter die schlechte Inhaltsqualität und die Fehlrepräsentation der ägyptischen Kultur. Durch die Analyse der Artikel und die Entwicklung eines Erkennungssystems können wir diese Probleme identifizieren und angehen.

Unsere Ergebnisse heben die Bedeutung menschlicher Beteiligung bei der Erstellung bedeutungsvoller Inhalte hervor. Wir empfehlen, dass die Wikipedia-Bemühungen darauf abzielen, authentischere Beiträge von lokalen Benutzern zu fördern. Indem wir Inhalte von niedriger Qualität herausfiltern und bessere Inhalte durch die Beteiligung der Gemeinschaft fördern, kann Wikipedia besser seine Mission erfüllen, genaue und repräsentative Informationen bereitzustellen.

Während wir weiterhin unsere Erkennungstools verbessern und bessere Praktiken fördern, können wir die allgemeine Qualität der ägyptischen arabischen Wikipedia verbessern und sie zu einer wertvolleren Ressource für die Leser machen.

Originalquelle

Titel: Leveraging Corpus Metadata to Detect Template-based Translation: An Exploratory Case Study of the Egyptian Arabic Wikipedia Edition

Zusammenfassung: Wikipedia articles (content pages) are commonly used corpora in Natural Language Processing (NLP) research, especially in low-resource languages other than English. Yet, a few research studies have studied the three Arabic Wikipedia editions, Arabic Wikipedia (AR), Egyptian Arabic Wikipedia (ARZ), and Moroccan Arabic Wikipedia (ARY), and documented issues in the Egyptian Arabic Wikipedia edition regarding the massive automatic creation of its articles using template-based translation from English to Arabic without human involvement, overwhelming the Egyptian Arabic Wikipedia with articles that do not only have low-quality content but also with articles that do not represent the Egyptian people, their culture, and their dialect. In this paper, we aim to mitigate the problem of template translation that occurred in the Egyptian Arabic Wikipedia by identifying these template-translated articles and their characteristics through exploratory analysis and building automatic detection systems. We first explore the content of the three Arabic Wikipedia editions in terms of density, quality, and human contributions and utilize the resulting insights to build multivariate machine learning classifiers leveraging articles' metadata to detect the template-translated articles automatically. We then publicly deploy and host the best-performing classifier, XGBoost, as an online application called EGYPTIAN WIKIPEDIA SCANNER and release the extracted, filtered, and labeled datasets to the research community to benefit from our datasets and the online, web-based detection system.

Autoren: Saied Alshahrani, Hesham Haroon, Ali Elfilali, Mariama Njie, Jeanna Matthews

Letzte Aktualisierung: 2024-03-31 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2404.00565

Quell-PDF: https://arxiv.org/pdf/2404.00565

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Ähnliche Artikel