Avaliação de Autoencoders Esparsos com SHIFT e TPP
Novas métricas melhoram a compreensão dos Autoencoders Esparsos em redes neurais.
Adam Karvonen, Can Rager, Samuel Marks, Neel Nanda
― 9 min ler
Índice
- O Desafio
- A Solução
- Métodos e Contribuições
- Avaliando a Isolação de Conceitos
- Validação e Verificações de Sanidade
- Seleção de Latentes do SAE
- Aplicando SHIFT e TPP
- Resultados Experimentais
- Descobertas
- Discussão e Limitações
- Conclusão
- Agradecimentos
- Direções Futuras
- Insights sobre Treinamento de Probes
- Procedimentos de Treinamento de Autoencoders Esparsos
- Fonte original
Autoencoders Esparsos (SAEs) ajudam a entender como as redes neurais funcionam ao dividir suas ativações em partes compreensíveis. Um grande problema nessa área é que não temos boas formas de medir o desempenho dos SAEs. A maioria dos estudos anteriores utilizou métodos que não são muito confiáveis. Neste trabalho, apresentamos novas maneiras de avaliar os SAEs usando um método chamado SHIFT, que ajuda a identificar quais partes de uma rede neural não estão contribuindo para a tarefa. Também introduzimos o método Targeted Probe Perturbation (TPP), que mede quão bem um SAE consegue diferenciar Conceitos semelhantes.
O Desafio
Os SAEs são uma ferramenta útil para entender redes neurais. Este ano, muitos novos tipos de SAEs foram desenvolvidos, como TopK e Gated SAEs. No entanto, ainda temos um problema sério com a falta de Métricas confiáveis para avaliar o progresso nessa área. Diferente de outras tarefas de aprendizado de máquina que têm objetivos claros, avaliar SAEs para interpretabilidade não tem um padrão definido.
As métricas tradicionais como esparsidade e fidelidade nem sempre correspondem ao que queremos em termos de entender melhor o modelo. Essa desconexão dificulta saber se melhorias nos SAEs realmente aumentam sua interpretabilidade ou se só melhoram essas métricas proxy.
A Solução
Para lidar com isso, propomos medir os SAEs com base em quão bem eles funcionam para tarefas fora do treinamento. O método SHIFT ajuda a avaliar quão bem um SAE pode identificar e remover partes de um modelo que contribuem para previsões tendenciosas. Usando o SHIFT, os pesquisadores conseguem ver quais características influenciam as saídas de uma rede neural e quais não importam. Criamos novas avaliações baseadas no SHIFT chamadas Remoção de Correlação Espúria (SCR) para avaliar a eficácia de um SAE em separar diferentes conceitos.
No entanto, o SCR tem limitações ao tentar escalar para diferentes tipos de dados. Para superar isso, desenvolvemos o método TPP, que observa como um SAE pode identificar e mudar uma classe específica enquanto deixa as outras intocadas. Para SCR e TPP, escolhemos características do SAE usando pontuações que refletem o quanto elas afetam a tarefa de classificação.
Métodos e Contribuições
Nossas principais contribuições são:
- Adaptando o SHIFT: Ajustamos a tarefa de remoção de correlação espúria no SHIFT para funcionar como uma ferramenta de avaliação para SAEs.
- Introduzindo o TPP: Desenvolvemos a métrica Targeted Probe Perturbation para avaliar SAEs em vários conjuntos de dados.
- Conjunto Open-Source: Treinamos e disponibilizamos uma coleção de SAEs e testamos nossas métricas usando diferentes modelos de linguagem e conjuntos de dados.
Os SAEs visam encontrar um conjunto de características compreensíveis do funcionamento interno de uma rede neural. Um bom SAE deve ser fiel aos processos do modelo e conseguir separar conceitos que são compreensíveis para humanos.
Tradicionalmente, as pessoas usaram duas métricas principais não supervisionadas para avaliar SAEs:
- A perda de entropia cruzada recuperada: Isso verifica quão bem o desempenho do modelo original pode ser imitado pelas previsões do SAE.
- A norma L0 das ativações de características: Isso mede quantas características estão ativadas para uma entrada específica.
Estudos recentes têm investigado a avaliação de SAEs usando jogos de tabuleiro, circuitos e conceitos linguísticos específicos. O objetivo da remoção de conceitos é encontrar e eliminar ideias indesejadas de um modelo enquanto mantém seu desempenho geral intacto. Nossa meta não é melhorar os métodos atuais de remoção de conceitos, mas transformar essas tarefas em métricas para avaliar o progresso do SAE.
Avaliando a Isolação de Conceitos
Nesta pesquisa, focamos em quão bem um SAE consegue isolar diferentes conceitos como uma medida principal de sua qualidade. Para testar nossos métodos, seguimos uma abordagem sistemática:
- Treinamos um classificador para um conceito específico.
- Identificamos as características do SAE que se relacionam com esse conceito.
- Verificamos se remover características relacionadas ao conceito afeta o classificador como esperado.
Um bom SAE impactará significativamente a precisão do classificador quando características relevantes forem removidas. Nossas métricas SHIFT e TPP operacionalizam essa ideia.
Validação e Verificações de Sanidade
Para garantir que nossas métricas sejam válidas, realizamos vários testes para ver se elas se alinham com as propriedades esperadas dos SAEs. Cada subseção a seguir detalha os passos de avaliação, e mais informações estão disponíveis no apêndice.
Seleção de Latentes do SAE
Escolher quais características do SAE avaliar requer descobrir quais são mais relevantes para um conceito específico. Fazemos isso classificando seus efeitos em um classificador e podemos filtrar essas características para interpretabilidade.
Para encontrar as características mais relevantes, usamos classificadores lineares para identificar conexões a partir das saídas do modelo. Coletamos pontuações que refletem o quanto cada característica contribui e depois selecionamos as melhores. Também usamos um juiz LLM para avaliar se uma característica é compreensível com base no contexto que ativa.
Aplicando SHIFT e TPP
O método SHIFT precisa de conjuntos de dados que conectem texto a dois rótulos binários. Usamos o conjunto de dados Bias in Bios para classificações de profissão e gênero e o conjunto de dados de avaliações da Amazon para categorias de produtos e classificações.
Filtramos ambos os conjuntos de dados para dois rótulos e treinamos um classificador no conjunto de dados tendencioso. Removemos características do classificador usando o processo descrito anteriormente para ver como o classificador funciona sem os vieses.
A abordagem TPP generaliza o SHIFT e funciona para qualquer conjunto de dados de classificação de texto. Aqui, encontramos características do SAE que ajudam a diferenciar classes e verificamos como a remoção delas afeta a precisão do modelo.
Resultados Experimentais
Treinamos SAEs em dois modelos, Pythia-70M e Gemma-2-2B, para testar nossas métricas. Ambas as métricas mostram que os SAEs podem remover viés de forma eficaz e aumentar a precisão do classificador. A avaliação SHIFT distingue entre vários tipos e arquiteturas de SAE.
Descobertas
Os resultados mostram consistentemente que as arquiteturas TopK e JumpReLU superam os SAEs padrão. Também notamos que o desempenho dos SAEs melhora durante o treinamento, com a primeira parte do treinamento contribuindo significativamente para os ganhos gerais nas pontuações.
Nossas descobertas indicam que a maioria das principais características do SAE, independentemente do método de seleção, são vistas como interpretáveis pelo juiz LLM. O método informado por ruído, que não requer o LLM, é mais rápido e fornece avaliações decentes.
Discussão e Limitações
Nossos experimentos confirmam que SHIFT e TPP diferenciam com sucesso entre diferentes arquiteturas de SAE. No entanto, os melhores níveis de esparsidade para cada métrica variam. Mais trabalho é necessário para relacionar a métrica TPP com medições de esparsidade.
O juiz LLM que usamos tem um padrão mais baixo para interpretabilidade do que outras implementações. Enquanto nossos métodos mais simples são mais rápidos e baratos, eles podem perder algumas interpretações. Assim, há um equilíbrio entre qualidade e eficiência ao decidir se devemos usar o juiz LLM.
SHIFT e TPP dependem de ideais definidos por humanos sobre o que os SAEs devem aprender, o que pode não corresponder ao que o modelo realmente representa. Essa dependência pode deixar de lado características importantes.
Apesar de suas forças, ambas as métricas têm limitações em termos de complexidade e parâmetros indefinidos. Elas devem complementar outros métodos de avaliação em vez de servirem como medidas independentes.
Conclusão
Os métodos SHIFT e TPP fornecem ferramentas valiosas para avaliar Autoencoders Esparsos. Eles são fáceis de aplicar em diferentes conjuntos de dados, demonstram melhorias durante o treinamento e podem ser computados rapidamente. Recomendamos que os pesquisadores utilizem nossas métricas para avaliar seus próprios SAEs e acompanhar o progresso do treinamento.
Agradecimentos
Esta pesquisa foi apoiada pelo Programa de Bolsas de Teoria de Alinhamento de ML. Agradecemos a todos que contribuíram com suas ideias e expertise durante este projeto. Além disso, agradecemos os recursos computacionais fornecidos por vários laboratórios.
Direções Futuras
No futuro, buscamos melhorar as avaliações que cobrem não apenas isolamento causal, mas também outras qualidades importantes dos SAEs. Reconhecemos que desenvolver uma estrutura abrangente para examinar todos os aspectos da qualidade do SAE continua sendo um desafio significativo.
Insights sobre Treinamento de Probes
Ao treinar probes em conjuntos de dados tendenciosos, é crucial equilibrar os sinais detectados. Se uma probe estiver muito tendenciosa para um rótulo, isso limita a eficácia da remoção de características indesejadas. Descobrimos que ajustar tamanhos de lote e taxas de aprendizado pode afetar significativamente a precisão da probe.
Para minimizar a dependência dos rótulos do conjunto de dados, calculamos a média das pontuações em múltiplos pares de classes. Ao selecionar pares com pelo menos 60% de precisão para ambas as classes, conseguimos melhorar a confiabilidade de nossas avaliações.
Procedimentos de Treinamento de Autoencoders Esparsos
Treinamos e disponibilizamos uma variedade de SAEs com base nos modelos Pythia-70M e Gemma-2-2B. Nossos parâmetros de treinamento visam garantir uma boa identificação de características em diferentes conjuntos de dados.
Com nossas descobertas, esperamos incentivar mais pesquisas em métodos de avaliação de SAE, melhorando a compreensão de como esses modelos operam e são aprimorados ao longo do tempo.
Título: Evaluating Sparse Autoencoders on Targeted Concept Erasure Tasks
Resumo: Sparse Autoencoders (SAEs) are an interpretability technique aimed at decomposing neural network activations into interpretable units. However, a major bottleneck for SAE development has been the lack of high-quality performance metrics, with prior work largely relying on unsupervised proxies. In this work, we introduce a family of evaluations based on SHIFT, a downstream task from Marks et al. (Sparse Feature Circuits, 2024) in which spurious cues are removed from a classifier by ablating SAE features judged to be task-irrelevant by a human annotator. We adapt SHIFT into an automated metric of SAE quality; this involves replacing the human annotator with an LLM. Additionally, we introduce the Targeted Probe Perturbation (TPP) metric that quantifies an SAE's ability to disentangle similar concepts, effectively scaling SHIFT to a wider range of datasets. We apply both SHIFT and TPP to multiple open-source models, demonstrating that these metrics effectively differentiate between various SAE training hyperparameters and architectures.
Autores: Adam Karvonen, Can Rager, Samuel Marks, Neel Nanda
Última atualização: 2024-11-27 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2411.18895
Fonte PDF: https://arxiv.org/pdf/2411.18895
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.