Repenser la similarité dans l'analyse textuelle
Un nouveau jeu de données traite de la variabilité du jugement humain dans la similarité textuelle sémantique.
― 9 min lire
Table des matières
La similarité sémantique de texte (STS) se penche sur la façon de déterminer à quel point deux morceaux de texte se ressemblent en termes de sens. Ce sujet est crucial dans la compréhension du langage naturel (NLU), où les machines doivent interpréter le langage humain.
Le Défi de la Subjectivité
Un gros défi dans ce domaine, c'est que différentes personnes peuvent avoir des avis variés sur la similarité de deux phrases. Les méthodes actuelles pour mesurer cette similarité reposent sur la moyenne des évaluations de plusieurs personnes. Cependant, faire une moyenne peut cacher les avis divers des individus, surtout quand les opinions sont très différentes. Ça limite la capacité des modèles à reconnaître l'incertitude et la complexité des jugements humains.
Introduction d'un Nouveau Jeu de Données
Pour s'attaquer à ce problème, on a créé un nouveau jeu de données qui prend en compte cette incertitude. Ce jeu est composé de 15 000 paires de phrases chinoises, avec un total de 150 000 étiquettes. Notre but est d'étudier comment différentes personnes évaluent la similarité et de capturer cette gamme d'opinions efficacement.
Opinions humaines
Analyser lesNos recherches montrent qu'un seul nombre (scalaire) ni une méthode statistique simple ne reflètent bien tous les jugements collectés. On a trouvé que les modèles STS existants ne tiennent souvent pas compte de la variabilité des opinions humaines. Au contraire, ils tendent à se concentrer sur la prédiction d'un score moyen unique.
La Nature des Tâches STS
La tâche STS consiste à évaluer à quel point deux morceaux de texte se ressemblent. Ça a été abordé de plein de manières, des anciennes méthodes qui se basaient sur des comparaisons basiques ou des comptages de mots, jusqu'aux méthodes modernes qui utilisent des réseaux neuronaux avancés. L'objectif reste le même : entraîner des modèles pour évaluer la similarité d'une manière similaire à celle des humains.
En général, les évaluations humaines sont rassemblées en faisant évaluer une paire de phrases par plusieurs évaluateurs, puis en faisant la moyenne de leurs scores. Cependant, ça suppose qu'il y a un score de similarité définitif, qui peut être approximé par une moyenne. Cette hypothèse fonctionne bien pour des évaluations claires, mais devient problématique dans des domaines plus subjectifs où les opinions divergent.
Désaccords dans l'Annotation
Des recherches ont montré que des incohérences peuvent survenir, surtout dans des domaines complexes où même les experts ne s'accordent pas sur ce que devrait être l'étiquette de similarité. Ignorer ou enlever ce qui est considéré comme des étiquettes "bruyantes" pourrait réduire les erreurs, mais néglige aussi la variabilité inhérente aux évaluations humaines.
Dans notre travail, on propose de réévaluer si on devrait traiter les désaccords parmi les évaluateurs simplement comme du bruit à filtrer. On pense que ces différences peuvent en fait refléter les qualités inhérentes des étiquettes STS.
Contributions Clés de Notre Étude
- Création d'un Nouveau Jeu de Données : On a développé un jeu de données qui intègre les désaccords humains et vise à donner une vue plus nuancée des évaluations de similarité.
- Limites des Modèles : On a trouvé que les modèles STS actuels, lorsqu'ils sont entraînés sur une seule évaluation moyenne, échouent à capturer la variabilité des jugements humains. On plaide pour un changement vers des modèles qui prédisent des distributions d'opinions, surtout pour les cas avec des désaccords significatifs.
- Considérations Multilingues : On parle aussi des défis lorsque l'on transfère des étiquettes entre différentes langues, indiquant que ce processus peut ne pas toujours fonctionner comme prévu.
Collecte des Données
Créer un jeu de données STS adapté nécessite de sélectionner des paires de phrases qui affichent une gamme de similarités sémantiques. C'est une tâche difficile car les paires de phrases aléatoires sont souvent sans lien, ne rendant qu'une petite fraction susceptible d'être similaire.
Pour rassembler les données, on a utilisé diverses sources de phrases existantes, y compris des discours publics et des textes de tâches associées. Pour des textes généraux comme les news, des méthodes de crowdsourcing ont été employées, tandis que pour des domaines spécialisés comme la santé, on utilise souvent des annotateurs experts.
Processus d'Annotation
Pour évaluer la similarité, les annotateurs notent des paires de phrases sur une échelle continue. Après plusieurs évaluations, une note moyenne est calculée pour servir de "standard" de référence. Cependant, ce processus repose sur la croyance que la variance parmi les évaluations indépendantes est aléatoire plutôt que provenant de différences d'interprétation.
Évaluer l'Impact de la Moyenne
Historiquement, la moyenne a été la méthode standard pour créer des étiquettes de référence. Pourtant, cette méthode suppose une compréhension claire de la similarité. Des niveaux élevés de désaccord parmi les annotateurs en pratique montrent que cette approche échoue souvent à refléter la distribution exacte des opinions.
Dans notre travail, on a mis en avant des exemples montrant que la moyenne peut obscurcir des disparités substantielles dans les scores d'annotation. Par exemple, si deux groupes d'évaluateurs voient un score de similarité différemment, une simple moyenne ne capte pas ces désaccords sous-jacents.
Reconnaître le Biais dans les Évaluations
On a examiné les problèmes de biais dans les évaluations des annotateurs et on a cherché à analyser le désaccord comme une caractéristique plutôt qu'un défaut. Des recherches sur l'inférence de langage naturel (NLI) ont montré que les désaccords dans des tâches similaires sont souvent significatifs, suggérant qu'ils font partie du processus d'évaluation plutôt que de simples inexactitudes.
Construire un Corpus STS Chinois
Une grande partie de l'attention dans le STS s'est concentrée sur l'anglais à cause de la disponibilité des ressources. Cependant, on visait à créer un jeu de données STS à grande échelle spécifiquement en chinois. Le corpus se compose de paires issues de diverses sources, garantissant une large gamme de similarités sémantiques.
Techniques de Collecte de Données
On a rassemblé des phrases en utilisant plusieurs approches, y compris la récupération de phrases similaires en fonction de leurs significations. Cette stratégie aide à éviter les problèmes d'échantillonnage aléatoire qui pourraient donner des paires sans lien.
À partir de TED talks, on a extrait des phrases qui sont naturellement plus décontractées et moins structurées, ce qui augmente le potentiel d'ambiguïté dans la compréhension. On a aussi tiré parti des Jeux de données NLI et de paraphrase existants pour enrichir notre collecte.
Directives d'Annotation et Contrôle de Qualité
On a adopté des directives strictes pour s'assurer que nos annotateurs maintenaient des normes de haute qualité durant le processus de labellisation. Des annotateurs professionnels internes ont été formés pour évaluer des paires de phrases sur une échelle indiquant la similarité. Ils ont suivi plusieurs sessions de formation pour assurer la fiabilité et un bon accord entre annotateurs.
Annotations
Analyser lesOn a analysé le premier tour d'annotations pour déterminer à quel point différents annotateurs s'étaient accordés. On a trouvé qu'il y avait une variabilité significative dans les opinions, soutenant davantage l'idée que la moyenne n'est pas toujours une méthode adéquate pour créer des étiquettes de référence.
Distinguer Accord Élevé vs Faible
Notre analyse a révélé que les exemples avec un accord plus faible (variance plus élevée) nécessitaient une approche plus nuancée que ceux où les évaluateurs étaient majoritairement sur la même longueur d'onde. Cette insight nous a incités à classer les exemples en groupes d'accord élevé et faible pour un meilleur traitement des évaluations.
Prédictions des Modèles et Jugements Humains
On a scruté divers modèles prédisant des scores de similarité. Beaucoup de modèles génèrent des scores de similarité uniques, qui ne tiennent pas compte de la diversité des annotations humaines. On a examiné si ces prédictions pouvaient s'aligner avec les jugements humains et on a trouvé que beaucoup de modèles tendent souvent à donner des scores élevés, faussant ainsi la distribution réelle des opinions.
Vers de Meilleurs Modèles
En analysant les écarts entre les prédictions des modèles et les évaluations humaines, on a trouvé que la plupart des modèles peinent à refléter l'incertitude présente dans les jugements humains. Il est essentiel d'encourager les modèles à prédire des distributions plutôt que des scores uniques, surtout dans les cas où il y a des désaccords notables parmi les évaluateurs.
Considérations Multilingues
En commençant à étendre notre travail au-delà du STS chinois, on s'est demandé si les évaluations d'une langue pouvaient être traduites et appliquées à une autre avec précision. On a étudié comment la langue impacte les évaluations données par les gens, et si les traducteurs professionnels produisent des évaluations similaires à celles des locuteurs natifs.
Dans nos résultats, on a noté des différences de jugement en fonction de la compétence linguistique des annotateurs. Par exemple, bien que les traducteurs professionnels aient tendance à prendre des décisions similaires à celles des locuteurs natifs anglais, les utilisateurs généraux montrent souvent une variance dans leurs évaluations.
Résumé des Résultats
En résumé, notre travail met en lumière des aspects essentiels pour capturer les opinions humaines dans les tâches STS et souligne l'importance de représenter correctement ces opinions, surtout dans les cas de forte controverse. On fournit un nouveau jeu de données qui vise à illustrer et quantifier l'incertitude dans les jugements humains tout en encourageant de futures recherches vers des approches de modélisation plus efficaces.
Directions Futures
À l'avenir, on vise à affiner notre compréhension de comment mieux agréger les jugements humains en représentations significatives. Il y a du potentiel à explorer des estimations directes des évaluations individuelles plutôt que de se fier uniquement à des scores agrégés. Cela pourrait conduire à des modèles plus précis qui reflètent plus sincèrement les complexités humaines.
De plus, on va examiner comment les facteurs linguistiques et culturels influencent les différences d'évaluation, ce qui pourrait informer de meilleures méthodologies pour les tâches STS multilingues. On pense qu'impliquer directement les sources de variabilité humaine pourrait fournir des insights révolutionnaires et améliorer considérablement le domaine.
Titre: Collective Human Opinions in Semantic Textual Similarity
Résumé: Despite the subjective nature of semantic textual similarity (STS) and pervasive disagreements in STS annotation, existing benchmarks have used averaged human ratings as the gold standard. Averaging masks the true distribution of human opinions on examples of low agreement, and prevents models from capturing the semantic vagueness that the individual ratings represent. In this work, we introduce USTS, the first Uncertainty-aware STS dataset with ~15,000 Chinese sentence pairs and 150,000 labels, to study collective human opinions in STS. Analysis reveals that neither a scalar nor a single Gaussian fits a set of observed judgements adequately. We further show that current STS models cannot capture the variance caused by human disagreement on individual instances, but rather reflect the predictive confidence over the aggregate dataset.
Auteurs: Yuxia Wang, Shimin Tao, Ning Xie, Hao Yang, Timothy Baldwin, Karin Verspoor
Dernière mise à jour: 2023-08-08 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2308.04114
Source PDF: https://arxiv.org/pdf/2308.04114
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.