Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Intelligence artificielle

Avancées dans les petits modèles de langue

Former des modèles pour mieux gérer les demandes complexes en utilisant le multitâche et la récupération.

― 8 min lire


Faire avancer les modèlesFaire avancer les modèlesde languemultitâche et la recherche d'infos.Améliorer les réponses de l'IA avec le
Table des matières

Ces dernières années, les petits modèles de langage ont fait des progrès en compréhension et en réponse à des questions complexes. Ces modèles peuvent gérer des requêtes qu'ils n'ont jamais vues auparavant, ce qui est essentiel dans les applications réelles. Cet article parle de comment on peut entraîner un petit modèle de langage à répondre à des questions difficiles en utilisant deux stratégies principales : le multitâche et la Récupération d'informations pertinentes.

Le Défi

Les modèles de langage ont été entraînés sur d'énormes quantités de données textuelles, leur permettant de répondre à de nombreuses requêtes. Cependant, ces modèles ont souvent des difficultés avec des questions complexes qui nécessitent un raisonnement sur plusieurs informations. Les questions peuvent aussi être délicates, car elles peuvent ne pas fournir assez de contexte ou être floues.

Par exemple, si quelqu'un demande : "Qui est le conjoint du performer vert ?" sans détails supplémentaires, il peut être difficile pour un modèle de savoir à quel performer la question fait référence. Même les modèles avancés échouent souvent à comprendre de telles requêtes, ce qui souligne la nécessité de meilleures techniques.

La Solution

Pour relever ces défis, on propose une méthode d'Entraînement qui combine deux éléments :

  1. Pré-entraînement Supervisé Multitâche : Cela consiste à entraîner le modèle sur de nombreuses tâches différentes en même temps, lui permettant d'apprendre diverses compétences de raisonnement. On a conçu un total de 93 tâches, offrant des défis divers au modèle. En ne se concentrant pas seulement sur un type de question, le modèle peut mieux généraliser ses connaissances.

  2. Système de récupération dense : Au lieu de se fier uniquement aux connaissances stockées dans les paramètres du modèle, on introduit un système pour récupérer des informations pertinentes à partir d'un plus grand ensemble de textes, comme des articles de Wikipédia. Lorsqu'un modèle est confronté à une question, il peut chercher des informations utiles pour aider à former une réponse.

Comprendre la Récupération

La récupération est le processus de localisation d'informations pertinentes à partir d'un plus grand ensemble de données. Lorsqu'un modèle reçoit une question, il recherche des fragments de texte qui pourraient contenir la réponse. Cette approche permet au modèle de s'appuyer sur des connaissances externes qu'il n'aurait peut-être pas mémorisées pendant son entraînement.

Par exemple, si on lui demande un événement spécifique, le modèle peut récupérer des articles ou des paragraphes liés à cet événement, améliorant ainsi sa capacité à répondre avec précision. Ce processus est bénéfique, surtout pour les questions qui nécessitent plusieurs pièces d'information pour répondre correctement.

Entraînement du Modèle

Pour entraîner notre petit modèle de langage, on a utilisé un processus en deux étapes :

  1. Pré-entraînement : Au début, le modèle passe par une phase de pré-entraînement, où il apprend d'une gamme de tâches. Pendant cette phase, les tâches sont choisies en fonction de leur difficulté et diversité, garantissant que le modèle acquiert une large compréhension.

  2. Entraînement Augmenté par Récupération : Dans cette phase, on introduit le système de récupération aux côtés de l'entraînement multitâche. On crée des ensembles d'entraînement spécifiquement conçus pour aider le modèle à apprendre comment intégrer des informations récupérées dans ses réponses.

Évaluation du Modèle

Après l'entraînement, on doit évaluer la performance du modèle. On utilise plusieurs ensembles de données d'évaluation, chacun présentant des questions uniques nécessitant différentes compétences de raisonnement. Les ensembles de données clés sur lesquels on se concentre incluent :

  • StrategyQA : Cet ensemble contient des questions de bon sens nécessitant un raisonnement en plusieurs étapes.
  • CommonsenseQA : Une collection de questions à choix multiples qui requièrent des connaissances de base.
  • DROP : Un ensemble où les réponses impliquent souvent un Raisonnement Numérique basé sur le texte fourni.
  • IIRC : Cet ensemble comprend des questions qui dépendent de la récupération d'un contexte supplémentaire provenant de plusieurs paragraphes.

Chaque ensemble de données est conçu pour mettre à l'épreuve la capacité du modèle à répondre efficacement en fonction des techniques que nous avons mises en œuvre.

Résultats

Nos résultats montrent qu'en ajoutant un entraînement basé sur la récupération, la performance du modèle s'améliore considérablement. Par exemple, lorsqu'il a été testé sur StrategyQA et CommonsenseQA, notre modèle a donné des réponses plus précises que ses prédécesseurs qui n'avaient pas d'entraînement de récupération.

De plus, en évaluant le modèle sur des tâches de raisonnement numérique dans l'ensemble DROP, il a montré une forte capacité à déduire des réponses grâce aux informations récupérées. Cependant, des défis persistent, surtout en ce qui concerne la compréhension des questions ambiguës ou celles nécessitant des réponses numériques précises.

Défis avec l'Ambiguïté

Un des plus grands obstacles dans la compréhension du langage est l'ambiguïté du langage humain. Les questions peuvent souvent être vagues ou peu claires, ce qui entraîne de la confusion. Par exemple, si une question fait référence à un "performer", il peut être flou de savoir lequel est visé sans contexte supplémentaire.

Pour atténuer ces problèmes, on vise à améliorer la façon dont le modèle gère les références ambiguës. Cela implique de l'entraîner à poser des questions de clarification ou à utiliser le contexte environnant plus efficacement.

Progrès dans le Raisonnement Numérique

Le raisonnement numérique est un autre domaine où des défis persistent. Les questions nécessitant des réponses numériques peuvent être particulièrement délicates. Par exemple, une question pourrait demander le total de certaines valeurs mentionnées dans un texte, mais le modèle pourrait avoir du mal à le faire avec précision sans exemples similaires dans ses données d'entraînement.

Pour y remédier, on a incorporé des ensembles de données d'entraînement spécifiques axés sur des tâches numériques. Cet entraînement supplémentaire aide le modèle à développer une meilleure littératie numérique et à répondre correctement aux requêtes connexes.

Directions Futures

En regardant vers l'avenir, il y a plusieurs domaines à améliorer :

  1. Techniques de Récupération Améliorées : On peut encore affiner le processus de récupération en incluant des algorithmes plus sophistiqués qui comprennent mieux le contexte et les nuances.

  2. Ensembles de Données d'Entraînement Élargis : En diversifiant les ensembles de données utilisés pour l'entraînement, on peut aider le modèle à apprendre d'un plus large éventail d'exemples, améliorant ainsi ses capacités de généralisation.

  3. Gestion des Questions Sans Réponse : Certaines questions peuvent ne pas avoir de réponses claires. On prévoit d'entraîner le modèle à reconnaître quand il ne peut pas fournir de réponse valide, ce qui pourrait l’empêcher de faire des déclarations incorrectes.

Impacts Plus Larges

Bien que les petits modèles de langage apportent des avantages comme une latence plus faible et des coûts réduits, ils ne sont pas sans risques. Comme leurs homologues plus grands, ces modèles peuvent parfois produire des réponses erronées ou trompeuses. Il est essentiel d'être prudent et de valider leurs résultats, surtout dans des applications critiques.

De plus, le développement de ces modèles peut conduire à des avancées significatives dans divers domaines, de l'éducation au service client, rendant les solutions pilotées par l'IA plus accessibles à des audiences variées.

Conclusion

Le chemin pour améliorer les petits modèles de langage est en cours, mais prometteur. En combinant l'apprentissage multitâche avec des stratégies de récupération efficaces, on permet à ces modèles de traiter des questions complexes et inédites plus efficacement. Bien qu'il reste des défis à surmonter, les avancées dans ce domaine présentent un potentiel significatif pour les applications futures. Grâce à un raffinement et une exploration continus, on peut ouvrir la voie à des systèmes de compréhension du langage plus fiables et performants.

Source originale

Titre: Teaching Smaller Language Models To Generalise To Unseen Compositional Questions

Résumé: We equip a smaller Language Model to generalise to answering challenging compositional questions that have not been seen in training. To do so we propose a combination of multitask supervised pretraining on up to 93 tasks designed to instill diverse reasoning abilities, and a dense retrieval system that aims to retrieve a set of evidential paragraph fragments. Recent progress in question-answering has been achieved either through prompting methods against very large pretrained Language Models in zero or few-shot fashion, or by fine-tuning smaller models, sometimes in conjunction with information retrieval. We focus on the less explored question of the extent to which zero-shot generalisation can be enabled in smaller models with retrieval against a corpus within which sufficient information to answer a particular question may not exist. We establish strong baselines in this setting for diverse evaluation datasets (StrategyQA, CommonsenseQA, IIRC, DROP, Musique and ARC-DA), and show that performance can be significantly improved by adding retrieval-augmented training datasets which are designed to expose our models to a variety of heuristic reasoning strategies such as weighing partial evidence or ignoring an irrelevant context.

Auteurs: Tim Hartill, Neset Tan, Michael Witbrock, Patricia J. Riddle

Dernière mise à jour: 2023-08-20 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2308.00946

Source PDF: https://arxiv.org/pdf/2308.00946

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires