Simple Science

La science de pointe expliquée simplement

# Informatique# Apprentissage automatique# Intelligence artificielle

Évaluer la performance du modèle sur des tâches variées

Cet article analyse la performance des modèles sur différentes tâches et ensembles de données.

― 6 min lire


Aperçus sur l'évaluationAperçus sur l'évaluationdes modèlesdifférentes tâches et mises à jour.Analyse les performances du modèle sur
Table des matières

Dans cette section, on va voir comment différents modèles s'en sortent sur diverses tâches et datasets. On va décomposer les résultats en parties claires pour faciliter la compréhension, et on fera référence à des figures pour identifier les résultats clés.

Évaluation sur Différents Datasets

On a testé le modèle LLaMa-2 de 7 milliards de paramètres sur plusieurs tâches avec un outil appelé eval-harness. Les résultats montrent que quand on réduit la taille du modèle (un processus appelé pruning), l'effet est beaucoup plus visible sur certaines tâches, en particulier sur la tâche GSM-8K.

De la même manière, on a examiné le modèle Mistral de 7 milliards de paramètres sur différentes tâches. Les résultats sont cohérents ; le pruning affecte certaines tâches de manière notable, surtout GSM-8K.

On a aussi regardé les tâches listées sur le leaderboard OpenLLM pour s'assurer qu'on peut répéter nos tests. Les tâches évaluées incluent une variété de défis comme MMLU, GSM-8K, ARC (versions faciles et difficiles), BoolQ, HellaSwag, Lambada, PiQA, Toxigen, TruthfulQA, et Winogrande.

Les résultats pour les deux modèles sont montrés dans des figures spécifiques pour plus de clarté. On n'a inclus que les résultats liés à l'Influence de certaines parties du modèle et la perte due au pruning.

D'après les résultats, c'est clair que retirer un seul bloc du modèle peut mener à moins de précision sur des tâches comme GSM-8K et ARC, même si on se concentre sur la tâche MMLU.

Résultats pour LLaMa-2 7B

On a comparé différentes manières de mesurer l'influence dans les couches du modèle LLaMa-2 de 7 milliards de paramètres. Cette comparaison concerne la performance du modèle sur un petit jeu de validation et sur MMLU. Dans nos résultats, on a remarqué que bien que les couches d'auto-attention soient plus susceptibles d'être pruned, les couches feed-forward sont aussi impactées, mais dans une moindre mesure.

Ensuite, on a regardé comment les adaptateurs linéaires influencent le modèle LLaMa-2 de 7 milliards de paramètres. Ce processus impliquait de s'entraîner avec trois méthodes différentes : perte d'erreur quadratique moyenne, fine-tuning supervisé et distillation de logit. Les résultats sont présentés dans les figures appropriées.

Quand on a comparé les adaptateurs linéaires sur différentes tâches, on a noté que leur utilisation aide le modèle à mieux performer de nouveau.

Normes de Mise à Jour

On a mesuré les normes de mise à jour dans le modèle. Ça nous aide à voir comment les changements dans le modèle évoluent avec le temps. On a regardé à la fois les normes de mise à jour de blocs et de couches pour les modèles LLaMa-2 7 milliards et Mistral 7 milliards. Les résultats visuels sont disponibles dans les figures.

Effet de la Mise à Jour Émuée

On a exploré comment les mises à jour émues affectent la performance du modèle. Ces mises à jour agissent comme un moyen de récupérer des pertes potentielles. Les résultats sont également représentés dans une figure.

On a produit des statistiques basées sur les mises à jour émues pour les deux modèles et capturé leur moyenne et écart type visuellement. Pour LLaMa-2, on a ajusté la vue pour se concentrer sur la plage moyenne des valeurs, comme pour Mistral puisque ses valeurs étaient plus petites.

Adaptateurs Linéaires à Bas Rang

On a évalué comment les adaptateurs linéaires avec différents rangs affectaient les modèles LLaMa-2 7 milliards et Mistral 7 milliards. Pour les rangs de 8, 32 et 256, on a entraîné les modèles en utilisant diverses métriques. Les figures illustrent comment chaque rang a performé.

Pour chaque rang, on présente à la fois les résultats originaux et relatifs pour comparer les performances des modèles avec et sans ces adaptateurs.

Courbes de Perte des Adaptateurs Linéaires à Bas Rang

On a suivi les courbes d'Entraînement pour les adaptateurs linéaires à bas rang dans les deux modèles pour divers rangs. Les résultats sont visualisés dans des figures pour montrer comment les modèles s'en sortent durant les phases d'entraînement.

Influence du Bloc Cosinus Pendant l'Entraînement

Dans cette section, on a examiné comment un métrique d'influence spécifique a changé pendant l'entraînement dans le modèle Pythia-2.8B. On a affiché ces changements visuellement, en utilisant des couleurs plus sombres pour les blocs inférieurs et des couleurs plus claires pour les blocs supérieurs.

Nos résultats indiquent que le premier bloc a maintenu une forte influence tout au long de l'entraînement, tandis que l'influence du deuxième bloc a fluctué à la baisse. Fait intéressant, le dernier bloc a commencé avec une influence minimale mais a gagné en importance à la fin. Ce modèle s'aligne avec des découvertes antérieures sur LLaMa-2 et Mistral, mettant en avant l'importance des premiers et derniers blocs.

Conclusion et Travaux Futurs

En résumé, nos évaluations révèlent les nuances de la manière dont les modèles réagissent au pruning et à l'introduction d'adaptateurs linéaires. Les résultats soulignent comment certaines tâches et configurations peuvent avoir un impact significatif sur la performance. Les études futures peuvent s'appuyer sur ces insights pour affiner les modèles et explorer de nouvelles techniques d'entraînement.

L'excitation de continuer cette recherche réside dans la découverte d'améliorations supplémentaires et la compréhension de la manière dont ces modèles peuvent s'adapter et évoluer. En se concentrant sur différentes méthodes et métriques, on ouvre la voie à des applications d'apprentissage automatique plus efficaces. L'impact de notre travail peut mener à de meilleurs designs et méthodologies dans le domaine, rendant les modèles plus efficaces et fiables.

À travers des tests et adaptations continus, on vise à améliorer notre compréhension du comportement et de la performance des modèles. Chaque découverte ajoute un morceau au puzzle, révélant les complexités et capacités des modèles modernes d'apprentissage automatique. On encourage davantage d'exploration et d'innovation dans cet espace alors qu'on continue d'apprendre de l'évolution continue de ces technologies.

Source originale

Titre: A deeper look at depth pruning of LLMs

Résumé: Large Language Models (LLMs) are not only resource-intensive to train but even more costly to deploy in production. Therefore, recent work has attempted to prune blocks of LLMs based on cheap proxies for estimating block importance, effectively removing 10% of blocks in well-trained LLaMa-2 and Mistral 7b models without any significant degradation of downstream metrics. In this paper, we explore different block importance metrics by considering adaptive metrics such as Shapley value in addition to static ones explored in prior work. We show that adaptive metrics exhibit a trade-off in performance between tasks i.e., improvement on one task may degrade performance on the other due to differences in the computed block influences. Furthermore, we extend this analysis from a complete block to individual self-attention and feed-forward layers, highlighting the propensity of the self-attention layers to be more amendable to pruning, even allowing removal of upto 33% of the self-attention layers without incurring any performance degradation on MMLU for Mistral 7b (significant reduction in costly maintenance of KV-cache). Finally, we look at simple performance recovery techniques to emulate the pruned layers by training lightweight additive bias or low-rank linear adapters. Performance recovery using emulated updates avoids performance degradation for the initial blocks (up to 5% absolute improvement on MMLU), which is either competitive or superior to the learning-based technique.

Auteurs: Shoaib Ahmed Siddiqui, Xin Dong, Greg Heinrich, Thomas Breuel, Jan Kautz, David Krueger, Pavlo Molchanov

Dernière mise à jour: 2024-07-23 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.16286

Source PDF: https://arxiv.org/pdf/2407.16286

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires