Ajuster des modèles multilingues avec des données anglaises
Des recherches montrent que l'ajustement avec des données en anglais peut améliorer la récupération d'informations multilingues.
― 7 min lire
Table des matières
Un système qui récupère des infos pertinentes est super important pour trouver du contenu utile dans de grandes quantités de texte. Cette recherche se penche sur la capacité d'une méthode à extraire des infos en plusieurs Langues quand le modèle est réglé uniquement avec des textes en anglais. L’idée est de voir comment cette limitation influence la qualité globale du système de récupération.
Contexte
La technologie utilisant des réseaux neuronaux a rendu possible la création de représentations détaillées de texte, permettant aux ordinateurs de comprendre et de comparer efficacement des documents. Ces représentations sont essentielles pour faire correspondre les requêtes avec le contenu pertinent. Un modèle à double encodeur est souvent utilisé, ce qui permet d’ajuster la requête tout en gardant le contenu principal inchangé.
Généralement, un modèle entraîné dans plusieurs langues peut souffrir en termes de qualité s’il est ajusté uniquement avec des données en anglais. Cependant, les auteurs de cette étude examinent si ce réglage peut non seulement maintenir l’efficacité multilingue mais aussi potentiellement l’améliorer.
Objectif
L’objectif de cette recherche est de comprendre l’impact de l’ajustement d’un modèle en utilisant seulement des données en anglais sur sa capacité à récupérer des infos en plusieurs langues. L’hypothèse est que ça pourrait ne pas nuire aux capacités multilingues et même améliorer les Performances.
Description du modèle
Les chercheurs ont utilisé deux Modèles multilingues bien connus pour leur analyse. Le premier modèle produit des représentations de texte compactes, efficaces pour diverses tâches. Les deux modèles sont évalués sur leur capacité à représenter le texte de manière à conserver le sens à travers différentes langues.
Collecte de données
Pour cette étude, plusieurs ensembles de données ont été utilisés pour évaluer la performance des modèles :
Triplets MSMARCO : Cet ensemble contient des paires de requêtes et de réponses, où chaque entrée inclut une bonne réponse et des réponses trompeuses. Les chercheurs ont divisé ces données pour l’entraînement, la validation, et le test du modèle.
Sous-ensemble ARXIV : Cet ensemble de données est composé de papiers académiques. Les titres et résumés ont été utilisés pour créer des paires pour les tests.
Ensemble de données XNLI : Un ensemble multilingue où des paires de phrases sont étiquetées en fonction de leurs relations, comme si l'une implique l'autre ou la contredit.
Les chercheurs ont organisé les données de manière à évaluer la qualité de la récupération d'infos importantes grâce à un système de triplets : une ancre (requête), une bonne réponse (échantillon positif), et une mauvaise réponse (échantillon négatif).
Processus de réglage
Le processus de réglage impliquait d’ajuster le modèle avec un ensemble de règles spécifiques. Dans ce cas, la partie texte de l’encodeur restait inchangée, tandis que certaines parties de l’encodeur de requêtes pouvaient être ajustées. Un taux d’apprentissage et une taille de lot spécifiques étaient fixés pour les ajustements afin d’assurer un réglage efficace.
En se concentrant sur des réglages avec des ensembles de données en anglais, les chercheurs voulaient voir comment le modèle se comportait encore avec d’autres langues. Ils ont suivi les erreurs survenues durant la phase d’évaluation pour les ensembles de triplets et le test XNLI.
Évaluation des modèles originaux
Avant l’ajustement, la performance originale des modèles a été mesurée. Les erreurs ont été comptées en fonction de la capacité du modèle à placer les bonnes réponses plus près des requêtes que de celles incorrectes. Cela a aidé à établir une base de comparaison pour les résultats après ajustement.
En évaluant les modèles originaux, l’étude a trouvé qu’un des modèles avait plus de mal avec des requêtes en anglais par rapport à sa performance dans d’autres langues.
Résultats après réglage
Une fois le processus de réglage terminé, les chercheurs ont réévalué la performance du modèle. Ils ont découvert qu’en dépit des ajustements uniquement en anglais, les qualités multilingues du modèle pouvaient être maintenues ou même améliorées. C’était particulièrement vrai pour la performance du modèle sur l’ensemble de données XNLI.
Les résultats ont montré un nombre notable de paires de langues qui se sont améliorées avec le réglage, signifiant que les ajustements n’ont pas nuis à la capacité du modèle à gérer diverses langues. Les améliorations ont été quantifiées sur la base des augmentations de performance à travers différents cas de test.
En gelant progressivement différentes couches de l’encodeur de requêtes durant le processus de réglage, ils ont observé les effets spécifiques sur la performance. En gardant certaines couches inchangées, surtout celles liées aux détails linguistiques, le modèle a conservé ou amélioré sa qualité à travers différentes langues. Plus de couches étaient gelées, meilleurs étaient les résultats.
Paramètres de réglage
Les chercheurs ont exploré divers paramètres de réglage pour voir à quel point ils affectaient la performance du modèle. Ils ont trouvé que :
Taux d’apprentissage : La rapidité des ajustements influençait la performance finale. Des ajustements plus élevés amélioraient les résultats en anglais mais entraînaient une baisse pour d’autres langues. Un taux équilibré semblait fonctionner le mieux.
Taille de lot : La quantité de données traitées simultanément pendant le réglage comptait aussi. Une taille de lot modérée tendait à donner des résultats stables sans compromettre la performance sur d’autres langues.
Marge d’apprentissage contrastif : Ce paramètre affectait à quel point les paires de textes étaient rapprochées lors de la récupération. Une marge contrôlée aidait à maintenir l’efficacité du modèle à travers les langues.
Conclusion
L’étude a indiqué que régler un modèle en utilisant uniquement des données en anglais ne dégrade pas nécessairement ses capacités multilingues. Avec la bonne approche, la qualité à travers diverses langues peut être préservée ou améliorée. Cette découverte ouvre la voie à des méthodes plus simples et efficaces pour adapter des modèles multilingues existants à des tâches spécifiques sans perdre leurs capacités de gestion des langues diverses.
Limitations
Bien que la recherche fournisse des aperçus sur les pratiques de réglage, elle se concentre encore sur un seul modèle multilingue de haute qualité. De futures investigations pourraient explorer différents modèles et langues pour obtenir une compréhension plus large des effets de techniques de réglage similaires. De plus, bien que cette étude ait utilisé des ensembles de données spécifiques pour l’évaluation, étendre les tests à divers autres ensembles de données pourrait donner des résultats et des aperçus plus variés sur les impacts du réglage.
Titre: Preserving Multilingual Quality While Tuning Query Encoder on English Only
Résumé: A query encoder of a dual passage retrieval system can be tuned for specific types of queries or domains, while the precomputed and stored documents representations are kept intact. Switching from one query encoder to another when needed is easily feasible, unlike overhauling the embeddings of a whole knowledge base. In this work we raise a question: Can the generic, original qualities of the encoder be preserved or at least left not too degraded when it is tuned on a narrow domain? We conducted experiments on a high quality multilingual embedding model: Tuning it on a single English-only dataset, we observe that the tuning not only preserves the multilingual qualities, but even improves them. The embedding qualities on distinctly different data are also improved or at least preserved. Drawing on our observations, we suggest a more general hypothesis: Tuning with intentionally low learning rate can preserve or improve a system's properties acquired in training, but not specifically targeted by tuning. We call this adiabatic tuning and provide tentative explanations.
Auteurs: Oleg Vasilyev, Randy Sawaya, John Bohannon
Dernière mise à jour: 2024-12-13 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.00923
Source PDF: https://arxiv.org/pdf/2407.00923
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://huggingface.co/intfloat/multilingual-e5-small
- https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
- https://huggingface.co/datasets/sentence-transformers/embedding-training-data/blob/main/msmarco-triplets.jsonl.gz
- https://huggingface.co/datasets/arxiv-community/arxiv
- https://www.kaggle.com/datasets/Cornell-University/arxiv
- https://huggingface.co/datasets/facebook/xnli