Mejoras en el Aprendizaje Federado a Través de la Selección de Características
Un nuevo método mejora la selección de características en el aprendizaje federado mientras asegura la privacidad de los datos.
― 7 minilectura
Tabla de contenidos
El Aprendizaje Federado Vertical (VFL) permite que diferentes dueños de datos, cada uno con características únicas pero compartiendo muestras de datos similares, trabajen juntos para entrenar un modelo útil. Esta configuración es beneficiosa para industrias como la banca y el comercio electrónico, donde diferentes empresas pueden contribuir a entender el comportamiento del cliente o detectar fraudes.
En VFL, la Selección de características (FS) juega un papel crucial. Ayuda a identificar qué características son útiles para el modelo mientras se ignoran aquellas que pueden no aportar ningún valor. Sin embargo, los métodos actuales para la selección de características en VFL a menudo dependen del conocimiento previo sobre los datos. Por ejemplo, podrían necesitar saber cuántas características ruidosas hay o cuál debería ser el umbral para las características útiles después del entrenamiento. Esta dependencia hace que estos métodos sean poco prácticos en escenarios del mundo real.
Para abordar estos problemas, proponemos un nuevo método llamado Selección de Características Basada en Puerta Doble Estocástica Federada (FedSDG-FS). Este método utiliza un sistema que puede estimar de manera eficiente qué características seleccionar mientras asegura que la privacidad de los datos se mantenga a través de cifrado.
Importancia de la Selección de Características
En VFL, las características locales de los dueños de datos impactan directamente la efectividad de sus modelos locales, lo que a su vez afecta el rendimiento general del modelo global. A menudo, los dueños de datos pueden tener características irrelevantes o redundantes que pueden degradar el rendimiento del modelo. Nuestra investigación se centra en eliminar estas características ruidosas y seleccionar las importantes que pueden ayudar a crear un mejor modelo.
Los escenarios de VFL a menudo involucran organizaciones que tienen datos superpuestos sobre los mismos sujetos pero carecen de conjuntos de datos completos. Por ejemplo, un banco, una empresa de transporte compartido y una plataforma de comercio electrónico pueden trabajar juntos para identificar posibles estafadores analizando el comportamiento del cliente desde diferentes ángulos.
Se han desarrollado varios métodos para la selección de características en el aprendizaje automático centralizado. Estos se pueden clasificar en tres grupos:
- Métodos de Filtrado: Estos evalúan características en función de medidas estadísticas antes del Entrenamiento del modelo.
- Métodos de Wrapper: Estos evalúan diferentes combinaciones de características en función de cuán bien funcionan al entrenar un modelo.
- Métodos Embebidos: Estos integran la selección de características en el proceso de entrenamiento del modelo en sí.
Sin embargo, pocos métodos se adaptan específicamente a las necesidades de VFL, que presentan desafíos únicos debido a preocupaciones de privacidad y la estructura de los datos.
Desafíos en los Enfoques Existentes
Los enfoques actuales para la selección de características en VFL enfrentan dos desafíos significativos:
- A menudo necesitan acceso directo a muestras de entrenamiento y etiquetas al mismo tiempo, lo que va en contra de los principios de Privacidad de Datos de VFL.
- Estos métodos suelen requerir muchas iteraciones de entrenamiento, lo que lleva a altos costos de computación y comunicación.
Para superar estos obstáculos, nuestro método FedSDG-FS tiene dos componentes principales: un módulo de inicialización de importancia de características y un módulo de selección de características segura.
Principales Beneficios de FedSDG-FS
FedSDG-FS viene con varias ventajas:
Conciencia Contextual: Este método puede realizar la selección de características junto con el entrenamiento del modelo, asegurando que las características elegidas sean relevantes para el contexto del modelo.
Eficiencia: Al usar la Impureza de Gini para evaluar la importancia de las características, FedSDG-FS acelera la identificación de características ruidosas e importantes, mejorando el tiempo de entrenamiento general del modelo.
Seguridad: Mantiene la privacidad de los datos mediante el uso de cifrado. Durante el entrenamiento y la selección de características, ni los datos en bruto ni las etiquetas se comparten con nadie excepto con sus propietarios originales.
Descripción del Sistema de FedSDG-FS
El marco de FedSDG-FS consiste en dos módulos principales:
Inicialización de Importancia de Características: Antes del entrenamiento, los clientes locales calculan la importancia inicial de cada característica utilizando la impureza de Gini. Esto se hace de manera segura, asegurando que los datos sensibles estén protegidos.
Selección de Características Importantes Durante el Entrenamiento: Tras la inicialización, el servidor coordina con los clientes para seleccionar características importantes mientras aún se está entrenando el modelo. Este proceso asegura que las características seleccionadas sean valiosas para el rendimiento del modelo.
Implementación de la Inicialización de Importancia de Características
La inicialización de importancia de características implica evaluar las características en términos de cuán relevantes son para el éxito del modelo global. Para cada característica, calculamos un puntaje de impureza de Gini, lo que ayuda a determinar cuáles características deberían ser priorizadas. Esto se hace de manera colaborativa entre los clientes y el servidor para mantener los datos privados.
Una vez calculados los puntajes de Gini, se envían de vuelta al servidor, que luego asigna valores de importancia más altos a las características con puntajes de impureza de Gini más bajos. Este paso mejora significativamente la eficiencia mientras se asegura la privacidad.
Selección Segura de Características Importantes
Después de establecer los puntajes de importancia iniciales, el siguiente paso es seleccionar de manera segura esas características durante el entrenamiento del modelo. Cada cliente selecciona al azar algunos de sus datos privados y calcula el vector de incrustación utilizando su modelo local. Este vector cifrado se envía al servidor.
El servidor procesa estas incrustaciones cifradas, realizando las operaciones necesarias para entrenar el modelo global. Se asegura de que durante este proceso, los clientes no sean conscientes de los datos de los demás, manteniendo así la privacidad.
Análisis de Convergencia del Método
FedSDG-FS ha sido diseñado para asegurar que a medida que avanza el entrenamiento, el modelo converja hacia una solución óptima de manera eficiente. Demostramos la relación entre nuestro método de selección de características propuesto y la selección de características basada en independencia estadística.
Además, nuestro método asegura que el entrenamiento del modelo sea estable, lo que lleva a un rendimiento consistente en diferentes conjuntos de datos y circunstancias de entrenamiento.
Evaluación Experimental de FedSDG-FS
En nuestros experimentos, evaluamos FedSDG-FS en una variedad de conjuntos de datos, incluyendo tanto datos sintéticos como del mundo real. Los resultados demuestran que nuestro método no solo supera los enfoques existentes en términos de precisión, sino que también utiliza menos características, reduciendo así los costos de computación.
Probamos múltiples configuraciones para varios tipos de datos, incluyendo datos tabulares, imágenes y archivos de audio. Un hallazgo notable de nuestros análisis es la capacidad de FedSDG-FS de mantener alta precisión con menos características seleccionadas, demostrando su eficiencia.
Conclusión
El método FedSDG-FS presenta un avance significativo en la selección de características para VFL. Al combinar una evaluación eficiente de características con medidas de privacidad mejoradas, podemos mejorar el rendimiento del modelo sin comprometer datos sensibles. Nuestro enfoque equilibra efectivamente la necesidad de un entrenamiento preciso del modelo con una robusta privacidad de datos, lo que lo hace adecuado para aplicaciones del mundo real en diversas industrias.
Este trabajo abre nuevos caminos para mejorar las capacidades del aprendizaje federado, particularmente en entornos donde la privacidad de los datos es primordial, mientras se logra un alto rendimiento y eficiencia en el entrenamiento del modelo.
Título: FedSDG-FS: Efficient and Secure Feature Selection for Vertical Federated Learning
Resumen: Vertical Federated Learning (VFL) enables multiple data owners, each holding a different subset of features about largely overlapping sets of data sample(s), to jointly train a useful global model. Feature selection (FS) is important to VFL. It is still an open research problem as existing FS works designed for VFL either assumes prior knowledge on the number of noisy features or prior knowledge on the post-training threshold of useful features to be selected, making them unsuitable for practical applications. To bridge this gap, we propose the Federated Stochastic Dual-Gate based Feature Selection (FedSDG-FS) approach. It consists of a Gaussian stochastic dual-gate to efficiently approximate the probability of a feature being selected, with privacy protection through Partially Homomorphic Encryption without a trusted third-party. To reduce overhead, we propose a feature importance initialization method based on Gini impurity, which can accomplish its goals with only two parameter transmissions between the server and the clients. Extensive experiments on both synthetic and real-world datasets show that FedSDG-FS significantly outperforms existing approaches in terms of achieving accurate selection of high-quality features as well as building global models with improved performance.
Autores: Anran Li, Hongyi Peng, Lan Zhang, Jiahui Huang, Qing Guo, Han Yu, Yang Liu
Última actualización: 2023-02-20 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2302.10417
Fuente PDF: https://arxiv.org/pdf/2302.10417
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.