Points forts de la campagne d'évaluation VarDial 2023 : Tâches de traitement du langage
Trois tâches axées sur les variétés de langue, la détection d'intention et l'identification de la parole.
― 6 min lire
Table des matières
La campagne d'évaluation VarDial 2023 s'est concentrée sur trois tâches principales liées au traitement des langues. Cette campagne fait partie d'un atelier qui discute de la manière de travailler avec des langues, variétés et dialectes similaires. Cette année, trois tâches communes ont été introduites : Détection de Slots et d'Intentions pour des variétés de langues à faibles ressources (SID4LR), Discrimination entre Langues Similaires - Étiquettes Véritables (DSL-TL), et Discrimination entre Langues Similaires - Parole (DSL-S). Toutes ces tâches ont été mises en place pour la première fois lors de la campagne de cette année.
Tâches Communes à VarDial 2023
La campagne d'évaluation a eu lieu de janvier à février 2023. Le calendrier était serré car l'atelier était prévu pour mai. L'annonce pour la participation a été faite début janvier, et les données d'entraînement ont été publiées le 23 janvier. Les participants avaient jusqu'au 27 février pour soumettre leurs résultats.
Détection de Slots et d'Intentions pour des Variétés de Langues à Faibles Ressources (SID4LR)
SID4LR avait pour cible la détection de slots et d'intentions dans trois variétés de langues à faibles ressources : l'allemand suisse de Berne, l'allemand tyrolien du Sud et le napolitain. L'objectif était de classifier ce que quelqu'un veut faire en fonction de ses mots et d'identifier des informations spécifiques dans son message. La question centrale était de savoir comment transférer des connaissances à ces langues à faibles ressources, qui manquent souvent de formes écrites standard.
Les données d'entraînement pour cette tâche provenaient d'un ensemble de données spécifiques contenant des exemples de différentes langues. Les participants pouvaient utiliser d'autres ressources pour améliorer leurs modèles. Les principales métriques d'évaluation utilisées étaient la Précision pour la détection d'intentions et le Score F1 pour la détection de slots.
Participants et Approches dans SID4LR
Plusieurs équipes ont participé à la tâche SID4LR, chacune utilisant différentes méthodes pour aborder le problème. Une équipe, UBC, a participé aux tâches de détection de slots et d'intentions. Ils ont utilisé divers modèles linguistiques et ont essayé différentes approches, y compris le changement de langues source et l'utilisation de données supplémentaires. L'équipe UBC a obtenu de bons résultats pour certaines langues mais a eu du mal avec l'allemand suisse, qui s'est avéré être une variété difficile.
Une autre équipe, Notre Dame, s'est concentrée uniquement sur la détection d'intentions. Ils ont appliqué des méthodes qui ne reposaient sur aucune donnée des langues cibles pendant leur entraînement. Leur approche a mis en évidence l'importance d'utiliser les bonnes techniques pour gérer le bruit dans les données, ce qui a aidé à améliorer leurs résultats.
Malgré les différences d'approche, les deux équipes ont obtenu de meilleurs résultats que le modèle de base établi auparavant. Le défi dans SID4LR était particulièrement évident avec l'allemand suisse, où les résultats étaient en retrait par rapport aux deux autres langues, suggérant qu'une analyse plus approfondie peut être nécessaire pour expliquer les écarts.
Discrimination entre Langues Similaires - Étiquettes Véritables (DSL-TL)
Dans la tâche DSL-TL, les participants cherchaient à identifier différentes variétés de langues, comme le croate et le serbe ou le portugais brésilien et européen. Cette tâche a introduit de nouveaux défis en permettant à des phrases d'appartenir à plusieurs variétés à la fois, rendant le tout plus complexe que les précédentes tâches.
L'ensemble de données DSL-TL comprenait des textes de journaux annotés par des locuteurs natifs des pays concernés. Les participants avaient deux pistes principales à suivre : une pour prédire toutes les étiquettes et une autre pour se concentrer uniquement sur des variétés spécifiques.
Participants et Approches dans DSL-TL
Quatre équipes ont soumis leur travail pour la tâche DSL-TL. L'équipe VaidyaKane a utilisé un modèle multilingue ajusté pour l'identification de langue. Ils ont combiné cela avec des modèles spécifiques à la langue pour mieux classifier le texte dans ses variétés respectives.
Une autre équipe, ssl, a opté pour une méthode plus traditionnelle en utilisant un Support Vector Machine (SVM) pour la classification basée sur des n-grammes de caractères. Ils ont également exploré l'utilisation de noms extraits de sources en ligne pour améliorer leur modèle.
L'équipe UnibucNLP a utilisé un ensemble de classificateurs pour améliorer ses prédictions. Leur approche a montré une performance solide sur les deux pistes, surtout dans la piste fermée se concentrant sur trois étiquettes.
Les résultats ont montré que la tâche était difficile, avec de nombreuses soumissions rencontrant des difficultés à distinguer entre des variétés similaires, en particulier lorsque des étiquettes neutres étaient impliquées. Cependant, l'équipe VaidyaKane a excellé dans la version ouverte de la tâche, suggérant que l'utilisation de données supplémentaires a été bénéfique.
Discrimination entre Langues Similaires - Parole (DSL-S)
La tâche DSL-S visait à identifier les langues parlées dans des données audio. Différentes langues ont été sélectionnées à partir de différentes familles linguistiques, mettant en évidence les différences dans les schémas de discours. Les données d'entraînement provenaient du projet Mozilla Common Voice, où des bénévoles lisaient des phrases spécifiques dans leurs langues.
Participants et Approches dans DSL-S
Malheureusement, même s'il y avait deux équipes enregistrées pour cette tâche, aucune n'a soumis de résultats. Les organisateurs ont néanmoins fourni des modèles de base pour donner aux participants une idée de leurs performances potentielles.
Les détails sur les modèles de base ont indiqué que l'utilisation simple de caractéristiques audio pour la classification n'était pas efficace en raison de la variabilité des locuteurs dans l'ensemble de test. En revanche, les modèles qui combinaient transcription et classification basée sur le texte ont obtenu de bien meilleurs résultats.
Les défis mis en avant dans DSL-S ont souligné les difficultés d'identification de langue dans l'audio, en particulier dans des environnements à faibles ressources où les données sont limitées. L'espoir est que les futures campagnes susciteront davantage d'intérêt dans ce domaine.
Conclusion
La campagne d'évaluation VarDial 2023 a présenté des opportunités passionnantes pour les chercheurs de s'engager dans des tâches de traitement des langues. Les trois tâches communes ont mis en avant différents aspects de la gestion des langues et dialectes similaires. Avec des équipes et des approches diverses, la campagne a apporté des perspectives précieuses sur l'identification des langues, tant dans le texte que dans la parole. Les participants sont encouragés à continuer d'explorer ces défis, car les avancées dans ce domaine peuvent conduire à de meilleurs outils et techniques pour le traitement des langues à l'avenir.
Titre: Findings of the VarDial Evaluation Campaign 2023
Résumé: This report presents the results of the shared tasks organized as part of the VarDial Evaluation Campaign 2023. The campaign is part of the tenth workshop on Natural Language Processing (NLP) for Similar Languages, Varieties and Dialects (VarDial), co-located with EACL 2023. Three separate shared tasks were included this year: Slot and intent detection for low-resource language varieties (SID4LR), Discriminating Between Similar Languages -- True Labels (DSL-TL), and Discriminating Between Similar Languages -- Speech (DSL-S). All three tasks were organized for the first time this year.
Auteurs: Noëmi Aepli, Çağrı Çöltekin, Rob Van Der Goot, Tommi Jauhiainen, Mourhaf Kazzaz, Nikola Ljubešić, Kai North, Barbara Plank, Yves Scherrer, Marcos Zampieri
Dernière mise à jour: 2023-05-31 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.20080
Source PDF: https://arxiv.org/pdf/2305.20080
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://sites.google.com/view/vardial-2023/shared-tasks
- https://bitbucket.org/robvanderg/sid4lr
- https://ttg.uni-saarland.de/resources/DSLCC/
- https://dsl-s.github.io
- https://huggingface.co/dbmdz/bert-base-german-uncased
- https://huggingface.co/dbmdz/bert-base-italian-uncased
- https://www.mturk.com/
- https://huggingface.co/papluca/xlm-roberta-base-language-detection
- https://huggingface.co/bert-base-uncased
- https://huggingface.co/bertin-project/bertin-roberta-base-spanish
- https://huggingface.co/neuralmind/bert-base-portuguese-cased
- https://huggingface.co/roberta-base
- https://huggingface.co/bert-base-multilingual-cased
- https://huggingface.co/xlm-roberta-base
- https://huggingface.co/facebook/wav2vec2-large-xlsr-53
- https://huggingface.co/voidful/wav2vec2-xlsr-multilingual-56
- https://github.com/tosaja/TunPRF-NADI