Simple Science

La science de pointe expliquée simplement

# Informatique# Ordinateurs et société

Une nouvelle méthode pour évaluer la qualité des articles Wikipédia

Évaluer la qualité des articles Wikipedia en utilisant des caractéristiques indépendantes de la langue.

― 10 min lire


Cadre d'évaluation de laCadre d'évaluation de laqualité de Wikipedialangues.qualité des articles dans toutes lesUne nouvelle technique évalue la
Table des matières

Wikipedia est une énorme bibliothèque en ligne où les gens partagent des connaissances dans plein de langues. Il y a plus de 300 langues différentes sur Wikipedia, et chacune a son propre groupe d'éditeurs bénévoles qui écrivent et améliorent des articles. Mais la qualité de ces articles peut énormément varier. Certains articles sont super détaillés et bien recherchés, tandis que d'autres peuvent faire juste quelques phrases. Les bénévoles essaient de suivre la qualité de chaque article, mais avec tous les changements qui se passent tout le temps, c'est difficile pour eux de rester à jour.

Pour aider avec ce problème, on a créé une nouvelle façon de vérifier la qualité des articles de Wikipedia sans avoir besoin de se fier à des langues spécifiques. Notre approche utilise des caractéristiques de la structure des articles eux-mêmes plutôt que du contenu. Ça veut dire que peu importe la langue, on peut évaluer la qualité des articles de manière plus cohérente.

Comprendre le Besoin d'Évaluation de Qualité

Wikipedia est l'un des sites web les plus visités au monde et sert de source d'information importante pour beaucoup de gens. Sa popularité signifie que la qualité des articles est cruciale. Cependant, les articles diffèrent énormément en qualité. Certains sont complets, faciles à lire, et bien sourcés, tandis que d'autres manquent de détails et de fiabilité.

Les bénévoles ont développé des critères pour évaluer la qualité des articles, et ils vérifient et mettent régulièrement à jour ces évaluations. Mais à cause des changements constants, garder ces évaluations à jour est une tâche difficile. Bien que certains systèmes automatisés aient été créés pour évaluer la qualité des articles, ils se concentrent souvent sur des langues spécifiques et nécessitent beaucoup de travail manuel pour rassembler les données d'entraînement.

Notre Approche : Caractéristiques Indépendantes de la Langue

Pour surmonter les défis de l'évaluation traditionnelle de qualité, on propose un système qui utilise des caractéristiques indépendantes de la langue. Ça veut dire qu'on extrait des caractéristiques spécifiques de la structure des articles, qui peuvent s'appliquer à n'importe quelle langue.

On a identifié six caractéristiques clés qui peuvent aider à évaluer la qualité des articles Wikipedia :

  1. Longueur de la Page : Ça mesure combien de caractères il y a dans un article. Les articles plus longs peuvent suggérer plus de profondeur, mais différentes langues ont différentes façons d'exprimer les mêmes idées.

  2. Références : Ça compte combien de balises de référence sont présentes par rapport à la longueur de la page. Les bons articles ont tendance à avoir plus de références, car elles permettent aux lecteurs de vérifier l'information.

  3. Sections : Ça compte le nombre de titres utilisés dans l'article. Les articles bien structurés ont souvent plus de sections.

  4. Wikilinks : Ça mesure combien de liens vers d'autres articles Wikipedia sont présents. Les liens aident les lecteurs à trouver des informations supplémentaires en rapport.

  5. Catégories : Ça compte simplement combien de catégories un article appartient. Les catégories aident à organiser le contenu et rendent la recherche plus facile pour les utilisateurs.

  6. Médias : Ça compte combien de fichiers multimédias (comme des images ou des vidéos) sont inclus. Les articles avec du contenu multimédia sont généralement plus engageants.

Avec ces caractéristiques, on peut créer un ensemble de données qui inclut des informations provenant de milliards de révisions d'articles dans toutes les langues sur Wikipedia.

Extraction des Données de Wikipedia

Les articles de Wikipedia ne sont pas figés ; ils changent avec le temps alors que les éditeurs ajoutent ou modifient du contenu. Chaque changement est enregistré comme une révision, qui inclut le contenu actuel de l'article et des détails supplémentaires comme qui a fait le changement et quand.

Pour créer notre ensemble de données, on a récupéré le contenu Wikitext de chaque révision de chaque article dans toutes les langues disponibles jusqu'à la fin de 2022. On s'est concentré uniquement sur les pages qui sont de vrais articles, en ignorant les redirections ou les pages de discussion.

Pour extraire les caractéristiques mentionnées plus tôt, on a utilisé une méthode appelée expressions régulières pour trier le texte efficacement. Ça nous a permis de créer un ensemble de données avec plus de 2 milliards de révisions, chaque ligne contenant l'ID de révision de l'article, l'ID de page, et les valeurs pour nos six caractéristiques.

Analyse de l'Ensemble de Données

Après avoir collecté l'ensemble de données, on voulait voir comment les caractéristiques variaient à travers les plus grandes versions linguistiques de Wikipedia en regardant les dernières révisions de chaque article. On s'est concentré sur les neuf langues principales : anglais, allemand, français, espagnol, italien, russe, japonais, chinois et vietnamien.

En analysant visuellement les distributions de chaque caractéristique, on a constaté que les articles de Wikipedia en anglais avaient généralement des longueurs plus longues et plus de références par rapport aux autres. Cependant, la Wikipedia japonaise se distinguait par un plus grand nombre de sections et de wikilinks par article. En revanche, la Wikipedia vietnamienne avait beaucoup d'articles courts, souvent créés par des bots.

Modélisation de la Qualité des Articles

Notre méthode pour évaluer la qualité des articles comprend deux étapes : apprendre l'importance de chaque caractéristique et fixer des seuils pour déterminer ce qui fait qu'un article est "de haute qualité".

Dans la première étape, on a utilisé un petit échantillon d'articles pour attribuer des poids à chaque caractéristique en fonction de leur contribution à un bon score de qualité. Dans la deuxième étape, on a regardé les articles les mieux notés et utilisé ces données pour établir des références sur ce qui est considéré comme de haute qualité.

Par exemple, si les 5 % meilleurs articles de Wikipedia en anglais ont en moyenne 14 catégories, alors un article avec 5 catégories obtiendrait un score inférieur, tandis qu'un avec 20 obtiendrait un score plus élevé.

Création de Scores de Qualité

Avec notre ensemble de données de caractéristiques, on peut maintenant appliquer notre modèle pour prédire la qualité des articles Wikipedia à travers les langues. Chaque article reçoit un score entre 0 et 1 basé sur ses caractéristiques. On a aussi inclus des IDs qui renvoient au même article dans Wikidata, rendant plus facile de les référencer dans différentes langues.

On a examiné les scores de qualité pour les neuf versions linguistiques les plus actives sur plusieurs années. Dans l'ensemble, on a remarqué que la qualité s'améliorait régulièrement pour beaucoup de ces versions, probablement grâce aux efforts des éditeurs qui élargissent et améliorent les articles. Cependant, la qualité des articles dans la Wikipedia vietnamienne fluctuait plus, avec beaucoup d'entre eux générés par des bots.

Évaluation de Notre Modèle

Pour juger de l'efficacité de notre approche, on a comparé nos scores de qualité prédis avec les évaluations réelles faites par les éditeurs de Wikipedia. On a sélectionné des articles test de Wikipedia en anglais et en français et extrait leurs étiquettes de qualité de référence.

En s'assurant que les articles utilisés pour l'évaluation n'avaient pas changé de manière significative depuis leur dernière évaluation, on a créé un ensemble de données équilibré à travers divers niveaux de qualité. Après avoir exécuté notre modèle sur cet ensemble de données, on a comparé ses prédictions aux étiquettes de qualité assignées par les éditeurs.

Les résultats nous ont montré que notre modèle pouvait capturer la qualité générale des articles mais avait des difficultés avec certaines classifications spécifiques. On a trouvé des cas où notre modèle a prédit qu'un article avait une qualité un cran en dessous de celle atteinte, surtout pour les étiquettes de qualité supérieure.

Évaluation par Rapport à d'Autres Modèles

On a aussi testé notre modèle par rapport à deux systèmes de référence : ORES, qui est conçu spécifiquement pour la Wikimedia Foundation, et un modèle Random Forest. Le modèle Random Forest était particulièrement utile pour déterminer la valeur de nos caractéristiques indépendantes de la langue.

Quand on a comparé la performance de notre modèle, on a trouvé qu'ORES surclassait généralement le nôtre dans tous les métriques. Cependant, notre modèle a montré du potentiel, particulièrement dans la Wikipedia française, où il a souvent performé aussi bien ou mieux que le Random Forest dans certaines comparaisons.

Applications dans le Monde Réel et Recherches Futures

Les ensembles de données qu'on a générés et notre cadre d'évaluation de qualité ont diverses applications. Les chercheurs peuvent suivre comment la qualité des articles évolue dans le temps dans différentes versions linguistiques, cherchant des tendances et des lacunes dans le contenu. Notre approche peut aussi aider à évaluer l'impact de projets collaboratifs visant à améliorer des sujets spécifiques sur Wikipedia.

De plus, combiner nos données avec des ressources existantes pourrait mener à des possibilités de recherche améliorées. Par exemple, on pourrait évaluer comment la qualité des articles se rapporte à leur fiabilité ou mesurer les effets des modifications anonymes sur la qualité globale.

Bien qu'on se soit concentré sur les articles en anglais et en français pour les tests, élargir notre évaluation pour inclure des données d'autres langues renforcera nos résultats.

Considérations Éthiques et FAIR

Les données qu'on a utilisées proviennent de sources publiques. On n'a pas interagi avec des utilisateurs individuels ni utilisé d'informations privées. On s'engage à garantir que nos ensembles de données respectent les principes de Findable, Accessible, Interoperable, et Reusable (FAIR).

Nos ensembles de données sont disponibles pour tout le monde, et on les a documentés clairement pour faciliter leur utilisation dans de futures recherches. Aucune conséquence néfaste n'est anticipée de ce travail, car il se concentre sur l'amélioration de l'accès aux connaissances à travers les barrières linguistiques.

Conclusion

On a introduit un cadre indépendant de la langue pour évaluer la qualité des articles Wikipedia. En transformant la grande quantité de données non structurées en un format plus gérable, on peut produire des scores de qualité pour les articles basés sur leur structure plutôt que juste sur leur contenu.

Cette ressource devrait soutenir une large gamme de communautés de recherche en rendant le contenu riche de Wikipedia plus accessible. À l'avenir, on aspire à évaluer notre modèle avec un éventail plus large de langues, promouvant encore plus l'équité en matière de connaissances au sein de la communauté mondiale de Wikipedia.

Source originale

Titre: Language-Agnostic Modeling of Wikipedia Articles for Content Quality Assessment across Languages

Résumé: Wikipedia is the largest web repository of free knowledge. Volunteer editors devote time and effort to creating and expanding articles in more than 300 language editions. As content quality varies from article to article, editors also spend substantial time rating articles with specific criteria. However, keeping these assessments complete and up-to-date is largely impossible given the ever-changing nature of Wikipedia. To overcome this limitation, we propose a novel computational framework for modeling the quality of Wikipedia articles. State-of-the-art approaches to model Wikipedia article quality have leveraged machine learning techniques with language-specific features. In contrast, our framework is based on language-agnostic structural features extracted from the articles, a set of universal weights, and a language version-specific normalization criterion. Therefore, we ensure that all language editions of Wikipedia can benefit from our framework, even those that do not have their own quality assessment scheme. Using this framework, we have built datasets with the feature values and quality scores of all revisions of all articles in the existing language versions of Wikipedia. We provide a descriptive analysis of these resources and a benchmark of our framework. In addition, we discuss possible downstream tasks to be addressed with these datasets, which are released for public use.

Auteurs: Paramita Das, Isaac Johnson, Diego Saez-Trumper, Pablo Aragón

Dernière mise à jour: 2024-04-15 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2404.09764

Source PDF: https://arxiv.org/pdf/2404.09764

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires