Simple Science

La science de pointe expliquée simplement

# Informatique # Apprentissage automatique # Calcul et langage

Évaluation des autoencodeurs épars avec SHIFT et TPP

De nouvelles métriques améliorent la compréhension des Sparse Autoencoders dans les réseaux de neurones.

Adam Karvonen, Can Rager, Samuel Marks, Neel Nanda

― 10 min lire


Évaluer efficacement les Évaluer efficacement les autoencodeurs épars clairsemés. l'évaluation des autoencodeurs De nouvelles méthodes améliorent
Table des matières

Les Autoencodeurs Épars (SAE) aident à comprendre comment fonctionnent les réseaux de neurones en décomposant leurs activations en parties compréhensibles. Un gros problème dans ce domaine, c'est qu'on n'a pas de bonnes façons de mesurer comment les SAE se débrouillent. La plupart des études passées ont utilisé des méthodes pas très fiables. Dans ce travail, on présente de nouvelles façons d'évaluer les SAE en utilisant une méthode appelée SHIFT, qui aide à déterminer quelles parties d'un réseau de neurones n’aident pas à la tâche. On introduit aussi la méthode de Perturbation de Probes Ciblées (TPP), qui mesure à quel point un SAE peut distinguer des Concepts similaires.

Le Défi

Les SAE sont un outil utile pour comprendre les réseaux de neurones. Cette année, plusieurs nouveaux types de SAE ont été développés, comme les TopK et les SAE Gated. Cependant, il y a encore un gros problème : on n’a pas de mesures fiables pour tester les progrès dans ce domaine. Contrairement à d'autres tâches d'apprentissage automatique qui ont des objectifs clairs, évaluer les SAE pour leur interprétabilité n'a pas de standard évident.

Les Métriques habituelles comme la sparsité et la fidélité ne correspondent pas toujours à ce qu'on veut en termes de meilleure compréhension du modèle. Ce décalage rend difficile de savoir si les améliorations des SAE rehaussent vraiment leur interprétabilité ou si elles n'améliorent que ces métriques proxy.

La Solution

Pour y remédier, on propose de mesurer les SAE en fonction de leur performance sur des tâches en dehors de leur formation. La méthode SHIFT aide à évaluer à quel point un SAE peut identifier et retirer des parties d'un modèle qui contribuent à des prédictions biaisées. En utilisant SHIFT, les chercheurs peuvent voir quelles caractéristiques influencent les sorties d'un réseau de neurones et lesquelles n'importent pas. On a créé de nouvelles évaluations basées sur SHIFT appelées Suppression de Corrélations Spurielles (SCR) pour évaluer l'efficacité d'un SAE à séparer différents concepts.

Cependant, la SCR a des limites lorsque l'on essaie d'élargir son application à différents types de données. Pour surmonter cela, on a développé la méthode TPP, qui examine comment un SAE peut identifier et modifier une classe spécifique tout en laissant les autres de côté. Pour la SCR et la TPP, on choisit les caractéristiques SAE en utilisant des scores qui reflètent combien elles affectent la tâche de classification.

Méthodes et Contributions

Nos principales contributions sont :

  1. Adapter SHIFT : On a ajusté la tâche de suppression de corrélations spurielles dans SHIFT pour qu'elle fonctionne comme outil d'évaluation pour les SAE.
  2. Introduire TPP : On a développé la métrique de Perturbation de Probes Ciblées pour évaluer les SAE à travers différents ensembles de données.
  3. Suite Open-Source : On a formé et rendu disponible une collection de SAE et testé nos métriques en utilisant différents modèles de langage et ensembles de données.

Les SAE visent à trouver un ensemble de caractéristiques compréhensibles des fonctionnements internes d'un réseau de neurones. Un bon SAE devrait refléter les processus du modèle et savoir séparer des concepts compréhensibles par l'humain.

Traditionnellement, on a utilisé deux métriques non supervisées principales pour évaluer les SAE :

  1. La perte d'entropie croisée récupérée : Cela vérifie à quel point on peut imiter la performance du modèle original en utilisant les prédictions du SAE.
  2. La norme L0 des activations de caractéristiques : Cela mesure combien de caractéristiques sont activées pour une entrée donnée.

Des études récentes se sont penchées sur l'évaluation des SAE en utilisant des jeux de société, des circuits, et des concepts linguistiques spécifiques. Le but de la suppression de concepts est de trouver et d'éliminer des idées indésirables d'un modèle tout en gardant sa performance globale intacte. Notre objectif n'est pas d'améliorer les méthodes existantes pour retirer des concepts, mais de transformer ces tâches en métriques pour évaluer les progrès des SAE.

Évaluer l'Isolation des Concepts

Dans cette recherche, on se concentre sur la capacité d'un SAE à isoler différents concepts comme mesure principale de sa qualité. Pour tester nos méthodes, on suit une approche systématique :

  1. Former un classificateur pour un concept spécifique.
  2. Identifier les caractéristiques SAE liées à ce concept.
  3. Vérifier si retirer les caractéristiques liées au concept affecte le classificateur comme prévu.

Un bon SAE impactera de manière significative la précision du classificateur lorsque les caractéristiques pertinentes sont retirées. Nos métriques SHIFT et TPP opérationnalisent cette idée.

Validation et Contrôles de Sanité

Pour s'assurer que nos métriques sont valides, on effectue plusieurs tests pour voir si elles s'alignent avec les propriétés attendues des SAE. Chaque sous-section ci-dessous détaille les étapes d'évaluation, et plus d'informations sont disponibles dans l'annexe.

Sélection Latente des SAE

Choisir quelles caractéristiques SAE évaluer nécessite de déterminer lesquelles sont les plus pertinentes pour un concept spécifique. On fait cela en classant leurs effets sur un classificateur et peut filtrer ces caractéristiques pour l'interprétabilité.

Pour trouver les caractéristiques les plus pertinentes, on utilise des classificateurs linéaires pour repérer des connexions à partir des sorties du modèle. On collecte des scores qui reflètent combien chaque caractéristique contribue, puis on sélectionne les meilleures. On utilise aussi un juge LLM pour évaluer si une caractéristique est compréhensible selon le contexte qu'elle active.

Application de SHIFT et TPP

La méthode SHIFT a besoin d'ensembles de données reliant du texte à deux étiquettes binaires. On utilise le dataset Bias in Bios pour les classifications de profession et de genre, et le dataset des avis Amazon pour les catégories de produits et les évaluations.

On filtre les deux ensembles de données pour deux étiquettes et forme un classificateur sur le dataset biaisé. On retire des caractéristiques du classificateur en utilisant le processus décrit précédemment pour voir comment fonctionne le classificateur sans les biais.

L'approche TPP généralise SHIFT et fonctionne pour n'importe quel ensemble de données de classification de texte. Ici, on trouve des caractéristiques SAE qui aident à différencier les classes et vérifions comment leur retrait affecte la précision du modèle.

Résultats Expérimentaux

On a formé des SAE sur deux modèles, Pythia-70M et Gemma-2-2B, pour tester nos métriques. Les deux métriques montrent que les SAE peuvent efficacement enlever les biais et améliorer la précision des classificateurs. L'évaluation SHIFT distingue différents types et architectures de SAE.

Conclusions

Les résultats montrent constamment que les architectures TopK et JumpReLU surpassent les SAE Standards. On note aussi que la performance des SAE s'améliore pendant l'entraînement, la première partie de l'entraînement contribuant beaucoup aux gains de score.

Nos trouvailles indiquent que la plupart des meilleures caractéristiques SAE, quel que soit le méthode de sélection, sont perçues comme interprétables par le juge LLM. La méthode informée par le bruit, qui ne nécessite pas le LLM, est plus rapide et fournit des évaluations convenables.

Discussion et Limites

Nos expériences confirment que SHIFT et TPP réussissent à différencier les différentes architectures de SAE. Cependant, les meilleurs niveaux de sparsité pour chaque métrique varient. Plus de travail est nécessaire pour relier la métrique TPP aux mesures de sparsité.

Le juge LLM que nous avons utilisé a un standard d'interprétabilité plus bas que d'autres implémentations. Bien que nos méthodes plus simples soient plus rapides et moins coûteuses, elles peuvent manquer certaines interprétations. Donc, il y a un équilibre entre qualité et efficacité quand il s'agit de décider d'utiliser ou non le juge LLM.

SHIFT et TPP dépendent des idéaux fixés par les humains sur ce que les SAE devraient apprendre, ce qui peut ne pas correspondre à ce que le modèle représente vraiment. Cette dépendance peut négliger des caractéristiques importantes.

Malgré leurs forces, les deux métriques ont des limitations en termes de complexité et de paramètres non définis. Elles devraient compléter d'autres méthodes d'évaluation au lieu de servir de mesures autonomes.

Conclusion

Les méthodes SHIFT et TPP fournissent des outils précieux pour évaluer les Autoencodeurs Épars. Elles sont faciles à appliquer à différents ensembles de données, montrent des améliorations pendant l’entraînement et peuvent être calculées rapidement. On recommande aux chercheurs d'utiliser nos métriques pour évaluer leurs propres SAE et suivre les progrès de l'entraînement.

Remerciements

Cette recherche a été soutenue par le programme des boursiers en théorie de l'alignement ML. On remercie tous ceux qui ont contribué avec leurs idées et leur expertise durant ce projet. De plus, on apprécie les ressources informatiques fournies par divers laboratoires.

Directions Futures

À l'avenir, on vise à améliorer les évaluations qui couvrent non seulement l'isolement causale mais aussi d'autres qualités importantes des SAE. On reconnaît que développer un cadre complet pour examiner tous les aspects de la qualité des SAE reste un défi significatif.

Aperçus sur l'Entraînement des Probes

Lors de l'entraînement de probes sur des ensembles de données biaisés, il est crucial de équilibrer les signaux détectés. Si une probe est fortement biaisée vers une étiquette, cela limite l'efficacité du retrait des caractéristiques indésirables. On a constaté que l'ajustement des tailles de lots et des taux d'apprentissage peut affecter de manière significative la précision de la probe.

Pour minimiser la dépendance aux étiquettes des ensembles de données, on a moyenné les scores sur plusieurs paires de classes. En sélectionnant des paires ayant au moins 60% de précision pour les deux classes, on pouvait améliorer la fiabilité de nos évaluations.

Procédures d'Entraînement des Autoencodeurs Épars

On forme et met à disposition une variété de SAE basés sur les modèles Pythia-70M et Gemma-2-2B. Nos paramètres d'entraînement visent à assurer une bonne identification des caractéristiques à travers différents ensembles de données.

Avec nos trouvailles, on espère encourager davantage de recherches sur les méthodes d'évaluation des SAE, améliorant ainsi la compréhension de la façon dont ces modèles fonctionnent et évoluent avec le temps.

Source originale

Titre: Evaluating Sparse Autoencoders on Targeted Concept Erasure Tasks

Résumé: Sparse Autoencoders (SAEs) are an interpretability technique aimed at decomposing neural network activations into interpretable units. However, a major bottleneck for SAE development has been the lack of high-quality performance metrics, with prior work largely relying on unsupervised proxies. In this work, we introduce a family of evaluations based on SHIFT, a downstream task from Marks et al. (Sparse Feature Circuits, 2024) in which spurious cues are removed from a classifier by ablating SAE features judged to be task-irrelevant by a human annotator. We adapt SHIFT into an automated metric of SAE quality; this involves replacing the human annotator with an LLM. Additionally, we introduce the Targeted Probe Perturbation (TPP) metric that quantifies an SAE's ability to disentangle similar concepts, effectively scaling SHIFT to a wider range of datasets. We apply both SHIFT and TPP to multiple open-source models, demonstrating that these metrics effectively differentiate between various SAE training hyperparameters and architectures.

Auteurs: Adam Karvonen, Can Rager, Samuel Marks, Neel Nanda

Dernière mise à jour: 2024-11-27 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2411.18895

Source PDF: https://arxiv.org/pdf/2411.18895

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires