Vulnerabilidades de envenenamento de dados no aprendizado SplitFed
Analisando os riscos de envenenamento de dados em aplicações de Aprendizado Federado.
― 9 min ler
Índice
O aprendizado de máquina ficou super popular entre várias organizações, incluindo governos, empresas de tecnologia e pequenos negócios. Uma grande preocupação com o aprendizado de máquina tradicional é como manter os dados pessoais seguros enquanto ainda usa esses dados para treinar modelos. Dois métodos que ajudam com isso se chamam Aprendizado Federado (FL) e Aprendizado Dividido (SL). Recentemente, surgiu uma nova abordagem chamada Aprendizado SplitFed (SFL) que combina esses dois métodos para aumentar a privacidade e a eficiência.
Esse artigo discute as fraquezas do SFL em relação a Ataques de Envenenamento de Dados, um tipo de ataque onde um agente malicioso tenta influenciar os dados de treinamento para prejudicar a performance do modelo. Vamos olhar para diferentes métodos de ataque e explorar seus efeitos em duas aplicações específicas: reconhecimento de dígitos escritos à mão e classificação de sinais cardíacos.
Contexto sobre Aprendizado de Máquina
O aprendizado de máquina (ML) é uma forma dos computadores aprenderem com dados e fazerem previsões com base nesses dados. É amplamente usado em áreas como recomendações de produtos, análise de imagens e compreensão da linguagem humana. A maioria dos modelos de ML aprende com dados rotulados, que ajudam a fazer previsões precisas. No entanto, coletar dados de boa qualidade pode ser complicado, especialmente quando a privacidade é uma preocupação.
Aprendizado Federado
O Aprendizado Federado permite que muitos clientes (usuários) treinem um modelo sem compartilhar seus dados locais com um servidor central. Ao invés disso, os clientes enviam atualizações para o servidor, que combina essas atualizações para obter um modelo global. Assim, os dados pessoais permanecem no dispositivo do cliente, aumentando a privacidade. Contudo, esse método ainda enfrenta desafios, como clientes com capacidade computacional limitada e a chance de agentes maliciosos interferirem no processo de treinamento.
Aprendizado Dividido
No Aprendizado Dividido, o modelo é dividido em duas partes: uma parte fica no dispositivo do cliente e a outra no servidor. Os clientes realizam alguns cálculos em seus dados e enviam apenas os resultados (também chamados de dados compactados) para o servidor. Esse método fornece mais privacidade, já que o servidor não tem acesso direto aos dados brutos do cliente. No entanto, pode ser mais lento porque os clientes podem processar os dados um de cada vez.
Aprendizado SplitFed
O Aprendizado SplitFed combina as vantagens do FL e SL. Ele permite que os clientes dividam o modelo entre eles e o servidor, treinando o modelo em paralelo, o que pode economizar tempo e recursos. No entanto, essa nova abordagem não está isenta de vulnerabilidades, especialmente quando se trata de ataques que visam corromper os dados usados para treinar os modelos.
Ataques de Envenenamento de Dados
Ataques de envenenamento de dados ocorrem quando alguém adiciona intencionalmente dados ruins ao conjunto de treinamento para afetar a saída do modelo. Esses ataques podem se apresentar em duas formas principais: envenenamento de rótulos limpos, onde dados errados são injetados no conjunto de treinamento, e envenenamento de rótulos sujos, onde os rótulos reais dos dados são alterados.
Esse artigo foca em três tipos específicos de ataques de envenenamento de dados usados contra o SFL:
Ataques direcionados: O atacante escolhe uma classe específica e muda seus rótulos para algo diferente. O objetivo é reduzir a precisão do modelo para essa classe selecionada sem afetar o restante.
Ataques Não Direcionados: Ao invés de focar em uma classe específica, o atacante altera rótulos aleatoriamente entre diferentes classes. Isso tende a ter um impacto maior na precisão geral do modelo.
Ataques Baseados em Distância: Nesse método, o atacante escolhe cuidadosamente os rótulos a serem mudados, focando naqueles que estão mais distantes em termos das características dos dados. Isso pode aumentar a eficácia do ataque.
Visão Geral do Experimento
Essa pesquisa testou os vários métodos de ataque em dois estudos de caso específicos para ver como cada tipo afeta a performance do modelo. O primeiro estudo envolveu o reconhecimento de dígitos escritos à mão usando o conjunto de dados MNIST, enquanto o segundo envolveu a classificação de sinais de ECG para detectar diferentes tipos de batimentos cardíacos.
Estudo de Caso 1 - Reconhecimento de Dígitos Escritos à Mão
O conjunto de dados MNIST contém imagens de dígitos escritos à mão de zero a nove. Os pesquisadores dividiram os dados em 60.000 imagens de treinamento e 10.000 imagens de teste. Cada imagem tem 28x28 pixels, tornando-o um conjunto de dados simples para testar vários modelos de ML.
Estudo de Caso 2 - Classificação de Sinais de ECG
O segundo estudo usou o conjunto de dados MIT-BIH Arrhythmia, que inclui sinais de ECG que são úteis para detectar ritmos cardíacos anormais. Esse conjunto de dados consiste em 48 gravações feitas durante 30 minutos cada, capturando atividades elétricas do coração. O objetivo é classificar esses sinais em várias categorias de batimentos cardíacos.
Implementação dos Ataques
Uma série de experimentos foi realizada onde diferentes porcentagens de clientes foram rotuladas como maliciosas. Vários modelos foram configurados para observar os efeitos de vários métodos de ataque em condições realistas, variando o número de clientes maliciosos e as camadas nas quais os modelos foram divididos.
Configuração para Reconhecimento de Dígitos Escritos à Mão
No estudo de caso do MNIST, o conjunto de dados foi dividido entre dez clientes, com cada um tendo uma parte das imagens de treinamento. Os pesquisadores configuraram o processo de treinamento para passar por 40 épocas para permitir tempo suficiente de aprendizado.
Configuração para Classificação de Sinais de ECG
Para os sinais de ECG, foram usados cinco clientes, cada um recebendo partes diferentes do conjunto de dados de treinamento. As execuções totais de treinamento foram definidas para 50 épocas para garantir a convergência durante o treinamento.
Estratégias de Ataque
Ataques Direcionados
Nos ataques direcionados, o atacante decide quais rótulos mudar para tornar classes específicas menos precisas. Por exemplo, se a classe for "círculos", o atacante pode mudar esses rótulos para "quadrados" para enganar o classificador.
Ataques Não Direcionados
Nos ataques não direcionados, a estratégia do atacante é mais aleatória. Eles podem mudar rótulos de forma geral, o que pode levar a uma queda maior na precisão geral, já que múltiplos rótulos errados afetam o modelo.
Ataques Baseados em Distância
Com essa estratégia, o atacante procura pontos de dados que estão longe dos outros e escolhe estrategicamente esses rótulos para manipular os rótulos das classes, o que pode levar a erros maiores nas previsões.
Resultados dos Ataques
Os resultados mostraram quão eficaz cada tipo de ataque foi, junto com quantos clientes maliciosos estavam envolvidos nos experimentos.
Queda na Precisão
Para o conjunto de dados MNIST, a precisão foi significativamente afetada pelos tipos de ataques. No caso dos ataques não direcionados, a precisão caiu drasticamente, especialmente quando a porcentagem de clientes maliciosos aumentou. Mesmo com apenas 20% dos clientes agindo de forma maliciosa, a precisão caiu notavelmente.
Para o conjunto de dados de ECG, os resultados mostraram uma queda ainda mais drástica na precisão. Por exemplo, com 40% dos clientes modificados, a precisão caiu de cerca de 88% para tão baixo quanto 26%, mostrando a vulnerabilidade desse método a ataques de envenenamento de dados.
Performance dos Tipos de Ataque
Ataques Não Direcionados: Esses ataques produziram a maior queda na precisão em ambos os conjuntos de dados. No estudo de caso do ECG, a performance caiu em mais de 60% quando muitos clientes maliciosos estavam presentes.
Ataques Direcionados: Embora eficazes, os ataques direcionados resultaram em uma queda menor na precisão em comparação aos não direcionados. A natureza desses ataques é tal que eles focam em menos classes específicas, levando a menos ruído geral no sistema.
Ataques Baseados em Distância: Esses ataques ficaram em um meio termo. Eles foram mais eficazes que os ataques direcionados, mas não tão devastadores quanto os não direcionados. Ao focar em rótulos distantes, os atacantes ainda podiam criar um impacto significativo na precisão.
Discussão dos Resultados
Os achados indicaram que as estruturas do SFL são vulneráveis a uma variedade de ataques que podem levar a previsões exageradas e resultados de modelo falhos. A capacidade de um atacante de modificar dados, especialmente em ataques não direcionados, foi evidente.
Aumentar o número de clientes maliciosos estava diretamente relacionado a uma queda no desempenho dos modelos. Mesmo um pequeno número de clientes comprometidos poderia induzir uma queda crítica na eficácia geral do sistema de aprendizado.
Implicações para o Uso do SFL
As vulnerabilidades descobertas no SFL têm implicações importantes para seu uso em aplicações do mundo real. Os sistemas devem ser projetados com melhores salvaguardas e monitoramento para garantir que esses ataques de envenenamento de dados sejam detectados cedo, antes que danos significativos possam ocorrer.
Conclusão
A pesquisa destaca os riscos que o SFL enfrenta em relação aos ataques de envenenamento de dados. Ao examinar como ataques direcionados, não direcionados e baseados em distância influenciam a performance dos modelos de aprendizado de máquina, este estudo contribui com insights valiosos para tornar o SFL uma opção mais segura para o aprendizado distribuído.
À medida que o aprendizado de máquina continua a evoluir e se integrar em vários setores, entender e mitigar os riscos impostos por ataques maliciosos será essencial. Trabalhos futuros devem focar em desenvolver defesas mais fortes contra esses tipos de ataques, garantindo a confiabilidade e a precisão dos sistemas de aprendizado de máquina colaborativos.
Título: Analyzing the vulnerabilities in SplitFed Learning: Assessing the robustness against Data Poisoning Attacks
Resumo: Distributed Collaborative Machine Learning (DCML) is a potential alternative to address the privacy concerns associated with centralized machine learning. The Split learning (SL) and Federated Learning (FL) are the two effective learning approaches in DCML. Recently there have been an increased interest on the hybrid of FL and SL known as the SplitFed Learning (SFL). This research is the earliest attempt to study, analyze and present the impact of data poisoning attacks in SFL. We propose three kinds of novel attack strategies namely untargeted, targeted and distance-based attacks for SFL. All the attacks strategies aim to degrade the performance of the DCML-based classifier. We test the proposed attack strategies for two different case studies on Electrocardiogram signal classification and automatic handwritten digit recognition. A series of attack experiments were conducted by varying the percentage of malicious clients and the choice of the model split layer between the clients and the server. The results after the comprehensive analysis of attack strategies clearly convey that untargeted and distance-based poisoning attacks have greater impacts in evading the classifier outcomes compared to targeted attacks in SFL
Autores: Aysha Thahsin Zahir Ismail, Raj Mani Shukla
Última atualização: 2023-07-03 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2307.03197
Fonte PDF: https://arxiv.org/pdf/2307.03197
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.