Simple Science

La science de pointe expliquée simplement

# Informatique# Génie logiciel

Exploiter le savoir-faire des experts pour une meilleure annotation des données

Utiliser des experts pour améliorer la qualité des données dans les tâches de machine learning.

― 6 min lire


Connaissances expertes enConnaissances expertes enétiquetage de donnéesdonnées.améliorer la qualité du label desUtiliser des conseils d'experts pour
Table des matières

Pour que l'apprentissage machine fonctionne bien, il faut beaucoup de données de bonne qualité qui ont été correctement étiquetées. Ces données étiquetées expliquent à la machine ce que signifie l'information, ce qui l'aide à mieux apprendre. Cependant, obtenir ce type de données peut être compliqué et coûteux, surtout quand des spécialistes sont nécessaires pour étiqueter les données. Dans certains cas, ça peut même être impossible si la tâche requiert qu'un seul expert fasse tout le boulot.

Utiliser des Experts pour obtenir des connaissances

Pour résoudre ce problème, on peut utiliser une méthode qui rassemble des connaissances d'experts dans le domaine. Il est essentiel de concevoir ce processus de manière à encourager les experts à participer et à partager leurs connaissances. Dans notre travail, on se concentre sur la recherche de vrais Synonymes à partir d'une liste de synonymes possibles. C'est particulièrement important dans des domaines où des personnes de différents horizons doivent travailler ensemble, comme dans des environnements professionnels où la communication claire est cruciale.

Le rôle des synonymes dans la communication

Quand différentes équipes collaborent, elles utilisent souvent des termes différents pour décrire les mêmes choses. Ça peut mener à des malentendus. Par exemple, si une équipe désigne un certain objet avec un terme spécifique, et qu'une autre équipe utilise un terme différent, elles ne se rendront peut-être pas compte qu'elles parlent de la même chose. En identifiant de vrais synonymes, on peut améliorer la communication et la collaboration entre les équipes.

Le défi de la détection des synonymes

Obtenir une bonne liste de synonymes peut être dur. Dans notre cas, on a un système qui essaie d'identifier des synonymes à partir d'exemples d'un domaine de travail spécifique, ici, la Construction. Le système examine comment les termes sont utilisés dans une collection écrite de textes et établit des synonymes possibles. Cependant, les premiers tests ont montré qu'un petit pourcentage des synonymes identifiés étaient réellement corrects. Seulement environ 1% des candidats étaient de vrais synonymes. Même si ça peut être décevant, trouver des synonymes avec des machines n'est pas facile et doit être considéré par rapport au temps et à l'effort nécessaires pour des recherches manuelles.

Collecter les avis des experts via le Crowdsourcing

Passer en revue tous les candidats synonymes potentiels - plus d'un million - serait une tâche écrasante pour une seule personne. Bien qu'il soit possible de demander à la population générale d'aider, le faire sans directives adéquates conduirait probablement à des résultats peu fiables, d'autant plus que la tâche nécessite une connaissance du langage spécifique utilisé dans l'industrie de la construction. Au lieu de ça, on a choisi une approche plus contrôlée en utilisant une plateforme de crowdsourcing qui nous permet de gérer la tâche efficacement. Cette plateforme nous permet de choisir qui participera, comment les données seront stockées et comment les tâches seront conçues.

Concevoir des tâches efficaces

On a structuré la tâche de validation des synonymes en deux phases claires. La première phase consiste à sélectionner des synonymes à partir d'une liste de candidats. Dans la deuxième phase, l'expert reçoit des retours sur ses choix. Ces retours sont cruciaux car ils aident les experts à améliorer leur compréhension des synonymes et à voir comment leurs choix se comparent à ceux des autres.

Pour rendre la tâche plus facile, on montre le contexte pour chaque terme, y compris une définition et sa place dans un système de classification plus large. Fournir ce contexte aide non seulement les experts dans leur sélection, mais favorise aussi l'apprentissage au sein de l'organisation, aidant tout le monde à parler le même langage.

Retours et résultats

Après avoir complété la sélection, on analyse les résultats immédiatement. Les experts peuvent voir à quel point leurs choix correspondent à ceux des utilisateurs précédents. Ce retour immédiat peut les aider à apprendre et à ajuster leurs sélections lors des tâches futures. Si la plupart des experts s'accordent sur un synonyme particulier, il est identifié comme un nouveau synonyme grâce à un simple processus de vote.

Motiver les experts à participer

La motivation est clé dans les tâches de crowdsourcing. On a conçu la tâche de validation des synonymes pour créer un win-win pour tous les participants - experts, direction qui finance la tâche, et chercheurs. Des études passées montrent que les gens sont généralement plus motivés par des facteurs internes, comme l'apprentissage et la connexion communautaire, que par des récompenses externes comme l'argent.

Pour garder les experts engagés, on leur fournit des informations sur les termes avec lesquels ils travaillent, on leur montre comment leurs choix s'alignent avec ceux des autres, et on laisse la direction suivre le temps consacré à ces tâches. Ces données peuvent aider à justifier le financement de tels projets.

Garder les experts engagés

Pour garder les experts intéressés, on randomise aussi les tâches qu'ils reçoivent. Cela aide à réduire les biais et les garde attentifs. Si un expert n'a pas sélectionné de synonyme après un certain nombre de tâches, on introduit aléatoirement un vrai synonyme pour encourager l'engagement et s'assurer qu'il fait attention.

Regard vers l'avenir

Alors qu'on continue à peaufiner ce processus, notre objectif est de l'utiliser avec un plus grand groupe d'experts. On veut collecter des synonymes pas seulement pour un projet spécifique, mais aussi créer un cadre qui peut être appliqué à d'autres tâches d'étiquetage de données. Par exemple, on pourrait adapter cette méthode pour évaluer la qualité de différents documents de projet ou pour évaluer la clarté du code.

Conclusion

En utilisant les connaissances des experts de manière systématique, on peut rassembler des données étiquetées de haute qualité pour les tâches d'apprentissage machine. Notre approche montre qu'avec le bon design, le crowdsourcing peut être une manière efficace de labelliser des données spécifiques à un domaine. Les leçons tirées ici sont applicables à divers projets en ingénierie logicielle et au-delà, ouvrant la voie à une meilleure collaboration et à une communication plus claire entre les équipes.

Source originale

Titre: Expert-sourcing Domain-specific Knowledge: The Case of Synonym Validation

Résumé: One prerequisite for supervised machine learning is high quality labelled data. Acquiring such data is, particularly if expert knowledge is required, costly or even impossible if the task needs to be performed by a single expert. In this paper, we illustrate tool support that we adopted and extended to source domain-specific knowledge from experts. We provide insight in design decisions that aim at motivating experts to dedicate their time at performing the labelling task. We are currently using the approach to identify true synonyms from a list of candidate synonyms. The identification of synonyms is important in scenarios were stakeholders from different companies and background need to collaborate, for example when defining and negotiating requirements. We foresee that the approach of expert-sourcing is applicable to any data labelling task in software engineering. The discussed design decisions and implementation are an initial draft that can be extended, refined and validated with further application.

Auteurs: Michael Unterkalmsteiner, Andrew Yates

Dernière mise à jour: 2023-09-28 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2309.16798

Source PDF: https://arxiv.org/pdf/2309.16798

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires