Evaluando Autoencoders Dispersos con SHIFT y TPP
N nuevas métricas mejoran la comprensión de los Autoencoders Dispersos en redes neuronales.
Adam Karvonen, Can Rager, Samuel Marks, Neel Nanda
― 9 minilectura
Tabla de contenidos
- El Desafío
- La Solución
- Métodos y Contribuciones
- Evaluando la Aislamiento de Conceptos
- Validación y Comprobaciones de Sanidad
- Selección Latente de SAE
- Aplicando SHIFT y TPP
- Resultados Experimentales
- Hallazgos
- Discusión y Limitaciones
- Conclusión
- Agradecimientos
- Direcciones Futuras
- Perspectivas de Entrenamiento de Sondas
- Procedimientos de Entrenamiento de Autoencoders Esparsos
- Fuente original
Los Autoencoders Esparsos (SAEs) ayudan a entender cómo funcionan las redes neuronales descomponiendo sus activaciones en partes comprensibles. Un gran problema en este ámbito es que no tenemos buenas formas de medir qué tan bien están funcionando los SAEs. La mayoría de los estudios anteriores han utilizado métodos que no son muy confiables. En este trabajo, presentamos nuevas formas de evaluar los SAEs usando un método llamado SHIFT, que ayuda a determinar qué parte de una red neuronal no está contribuyendo a la tarea en cuestión. También introducimos el método de Perturbación de Sonda Dirigida (TPP), que mide qué tan bien un SAE puede distinguir Conceptos similares.
El Desafío
Los SAEs son una herramienta útil para entender las redes neuronales. Este año, se han desarrollado muchos tipos nuevos de SAEs, como los SAEs TopK y Gated. Sin embargo, sigue existiendo un gran problema: no hay Métricas confiables para probar el progreso en esta área. A diferencia de otras tareas de aprendizaje automático que tienen objetivos claros, evaluar los SAEs en términos de interpretabilidad carece de un estándar definido.
Las métricas habituales como la esparsidad y la fidelidad no siempre coinciden con lo que queremos en términos de entender mejor el modelo. Esta desconexión hace que sea difícil saber si las mejoras en los SAEs realmente aumentan su interpretabilidad o si solo mejoran estas métricas proxy.
La Solución
Para abordar esto, proponemos medir los SAEs según qué tan bien funcionan para tareas fuera de su entrenamiento. El método SHIFT ayuda a evaluar qué tan bien un SAE puede identificar y eliminar partes de un modelo que contribuyen a predicciones sesgadas. Al usar SHIFT, los investigadores pueden ver qué características influyen en las salidas de una red neuronal y cuáles no importan. Creamos nuevas evaluaciones basadas en SHIFT llamadas Eliminación de Correlación Espuria (SCR) para evaluar la efectividad de un SAE en la separación de diferentes conceptos.
Sin embargo, SCR tiene limitaciones al intentar escalar entre varios tipos de datos. Para superar esto, desarrollamos el método TPP, que observa cómo un SAE puede identificar y cambiar una clase específica mientras deja otras sin alterar. Para ambos, SCR y TPP, elegimos las características SAE usando puntajes que reflejan cuánto afectan la tarea de clasificación.
Métodos y Contribuciones
Nuestras principales contribuciones son:
- Adaptar SHIFT: Ajustamos la tarea de eliminación de correlación espuria en SHIFT para que funcione como herramienta de evaluación para los SAEs.
- Introducir TPP: Desarrollamos la métrica de Perturbación de Sonda Dirigida para evaluar los SAEs a través de varios conjuntos de datos.
- Suite de Código Abierto: Entrenamos y pusimos a disposición una colección de SAEs y probamos nuestras métricas usando diferentes modelos de lenguaje y conjuntos de datos.
Los SAEs buscan encontrar un conjunto de características comprensibles de los procesos internos de una red neuronal. Un buen SAE debería ser fiel a los procesos del modelo y ser capaz de separar conceptos que los humanos pueden entender.
Tradicionalmente, la gente ha utilizado dos métricas principales no supervisadas para evaluar los SAEs:
- La pérdida de entropía cruzada recuperada: Esto verifica qué tan bien el rendimiento del modelo original puede ser imitado usando las predicciones del SAE.
- La norma L0 de las activaciones de características: Esto mide cuántas características están activadas para una entrada dada.
Estudios recientes han explorado evaluar los SAEs usando juegos de mesa, circuitos y conceptos lingüísticos específicos. El objetivo de la eliminación de conceptos es encontrar y eliminar ideas no deseadas de un modelo mientras se mantiene intacto su rendimiento general. Nuestro objetivo no es mejorar los métodos actuales para eliminar conceptos, sino convertir estas tareas en métricas para evaluar el progreso de los SAEs.
Evaluando la Aislamiento de Conceptos
En esta investigación, nos enfocamos en qué tan bien un SAE puede aislar diferentes conceptos como una medida principal de su calidad. Para probar nuestros métodos, seguimos un enfoque sistemático:
- Entrenar un clasificador para un concepto específico.
- Identificar las características SAE que se relacionan con ese concepto.
- Verificar si eliminar características relacionadas con el concepto afecta al clasificador como se esperaba.
Un buen SAE impactará significativamente la precisión del clasificador cuando se eliminen características relevantes. Nuestras métricas SHIFT y TPP operacionalizan esta idea.
Validación y Comprobaciones de Sanidad
Para asegurarnos de que nuestras métricas son válidas, realizamos varias pruebas para ver si se alinean con las propiedades esperadas de los SAEs. Cada subsección a continuación detalla los pasos de evaluación, y más información está disponible en el apéndice.
Selección Latente de SAE
Elegir qué características SAE evaluar requiere averiguar cuáles son más relevantes para un concepto específico. Hacemos esto clasificando sus efectos en un clasificador y podemos filtrar estas características para la interpretabilidad.
Para encontrar las características más relevantes, usamos clasificadores lineales para detectar conexiones desde las salidas del modelo. Recolectamos puntajes que reflejan cuánto contribuye cada característica y luego seleccionamos las mejores. También usamos un juez LLM para evaluar si una característica es comprensible según el contexto que activa.
Aplicando SHIFT y TPP
El método SHIFT necesita conjuntos de datos que conecten texto con dos etiquetas binarias. Usamos el conjunto de datos Bias in Bios para clasificaciones de profesión y género, y el conjunto de reseñas de Amazon para categorías de productos y calificaciones.
Filtramos ambos conjuntos de datos para dos etiquetas y entrenamos un clasificador en el conjunto de datos sesgado. Eliminamos características del clasificador usando el proceso descrito anteriormente para ver qué tan bien funciona el clasificador sin los sesgos.
El enfoque TPP generaliza SHIFT y funciona para cualquier conjunto de datos de clasificación de texto. Aquí, encontramos características SAE que ayudan a diferenciar clases y verificamos qué tan bien su eliminación afecta la precisión del modelo.
Resultados Experimentales
Entrenamos SAEs en dos modelos, Pythia-70M y Gemma-2-2B, para probar nuestras métricas. Ambas métricas muestran que los SAEs pueden eliminar eficazmente sesgos y mejorar la precisión del clasificador. La evaluación SHIFT distingue entre varios tipos y arquitecturas de SAE.
Hallazgos
Los resultados muestran consistentemente que las arquitecturas TopK y JumpReLU superan a los SAEs estándar. También notamos que el rendimiento de los SAEs mejora durante el entrenamiento, siendo la primera parte del entrenamiento la que contribuye significativamente al aumento de la puntuación general.
Nuestros hallazgos indican que la mayoría de las características SAE superiores, independientemente del método de selección, son vistas como interpretables por el juez LLM. El método informado por ruido, que no requiere el LLM, es más rápido y proporciona evaluaciones decentes.
Discusión y Limitaciones
Nuestros experimentos confirman que SHIFT y TPP diferencian con éxito entre diferentes arquitecturas SAE. Sin embargo, los mejores niveles de esparsidad para cada métrica varían. Se necesita más trabajo para relacionar la métrica TPP con las mediciones de esparsidad.
El juez LLM que usamos tiene un estándar más bajo para la interpretabilidad que otras implementaciones. Si bien nuestros métodos más simples son más rápidos y económicos, pueden pasar por alto algunas interpretaciones. Por lo tanto, hay un equilibrio entre calidad y eficiencia al decidir si usar el juez LLM.
SHIFT y TPP dependen de ideales establecidos por humanos sobre qué deben aprender los SAEs, lo que puede no coincidir con lo que el modelo realmente representa. Esta dependencia puede pasar por alto características importantes.
A pesar de sus fortalezas, ambas métricas tienen limitaciones en términos de complejidad y parámetros indefinidos. Deben complementar otros métodos de evaluación en lugar de servir como medidas independientes.
Conclusión
Los métodos SHIFT y TPP proporcionan herramientas valiosas para evaluar los Autoencoders Esparsos. Son fáciles de aplicar a diferentes conjuntos de datos, demuestran mejoras durante el entrenamiento y se pueden calcular rápidamente. Recomendamos a los investigadores que utilicen nuestras métricas para evaluar sus propios SAEs y mantener un seguimiento del progreso del entrenamiento.
Agradecimientos
Esta investigación fue apoyada por el Programa de Becarios en Teoría de Alineación de ML. Agradecemos a todos aquellos que contribuyeron con sus ideas y experiencia durante este proyecto. Además, apreciamos los recursos computacionales proporcionados por varios laboratorios.
Direcciones Futuras
En el futuro, pretendemos mejorar las evaluaciones que cubran no solo la aislamiento causal, sino también otras cualidades importantes de los SAEs. Reconocemos que desarrollar un marco integral para examinar todos los aspectos de la calidad del SAE sigue siendo un desafío significativo.
Perspectivas de Entrenamiento de Sondas
Al entrenar sondas en conjuntos de datos sesgados, es crucial equilibrar las señales detectadas. Si una sonda está muy sesgada hacia una etiqueta, limita la efectividad de eliminar características no deseadas. Descubrimos que ajustar los tamaños de lote y las tasas de aprendizaje puede afectar significativamente la precisión de la sonda.
Para minimizar la dependencia de las etiquetas del conjunto de datos, promediamos puntajes en múltiples pares de clases. Al seleccionar pares con al menos un 60% de precisión para ambas clases, pudimos mejorar la fiabilidad de nuestras evaluaciones.
Procedimientos de Entrenamiento de Autoencoders Esparsos
Entrenamos y pusimos a disposición una variedad de SAEs basados en los modelos Pythia-70M y Gemma-2-2B. Nuestros parámetros de entrenamiento buscan asegurar una buena identificación de características a través de diferentes conjuntos de datos.
Con nuestros hallazgos, esperamos fomentar más investigaciones en métodos de evaluación de SAE, mejorando la comprensión de cómo operan estos modelos y cómo se mejoran con el tiempo.
Título: Evaluating Sparse Autoencoders on Targeted Concept Erasure Tasks
Resumen: Sparse Autoencoders (SAEs) are an interpretability technique aimed at decomposing neural network activations into interpretable units. However, a major bottleneck for SAE development has been the lack of high-quality performance metrics, with prior work largely relying on unsupervised proxies. In this work, we introduce a family of evaluations based on SHIFT, a downstream task from Marks et al. (Sparse Feature Circuits, 2024) in which spurious cues are removed from a classifier by ablating SAE features judged to be task-irrelevant by a human annotator. We adapt SHIFT into an automated metric of SAE quality; this involves replacing the human annotator with an LLM. Additionally, we introduce the Targeted Probe Perturbation (TPP) metric that quantifies an SAE's ability to disentangle similar concepts, effectively scaling SHIFT to a wider range of datasets. We apply both SHIFT and TPP to multiple open-source models, demonstrating that these metrics effectively differentiate between various SAE training hyperparameters and architectures.
Autores: Adam Karvonen, Can Rager, Samuel Marks, Neel Nanda
Última actualización: 2024-11-27 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2411.18895
Fuente PDF: https://arxiv.org/pdf/2411.18895
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.