Simple Science

Ciência de ponta explicada de forma simples

# Informática# Aprendizagem de máquinas# Inteligência Artificial# Visão computacional e reconhecimento de padrões

Abordando o Esquecimento Catastrófico em Aprendizado Federado

Apresentando o FedGTG pra reter conhecimento enquanto aprende em ambientes federados.

― 7 min ler


FedGTG: Uma Solução paraFedGTG: Uma Solução paraEsquecercenários de aprendizado federado.Novo método mantém conhecimento em
Índice

O Aprendizado Federado Classe-Incremental (FCIL) tá se tornando cada vez mais importante, pois permite que diferentes usuários colaborem pra treinar modelos sem precisar compartilhar informações privadas. Isso é útil porque cada usuário tem seus próprios dados e quer mantê-los em segurança. Mas, conforme novas tarefas aparecem, muitos sistemas de aprendizado de máquina tendem a esquecer o que aprenderam antes. Essa perda de conhecimento antigo é conhecida como Esquecimento Catastrófico.

Em muitos sistemas de aprendizado, quando um modelo é treinado com novos dados, ele pode até se sair bem nesses dados novos, mas vai mal nos dados que já viu antes. Recentemente, algumas abordagens têm usado imagens sintéticas pra ajudar a resolver esse problema. Porém, esses métodos ainda têm dificuldades em manter o desempenho em tarefas anteriores enquanto aprendem novas. Neste artigo, apresentamos um novo método chamado Gerador de Gêmeos Globais Federados (FedGTG) pra ajudar a resolver essa questão.

O Problema do Esquecimento Catastrófico

Quando modelos de aprendizado de máquina aprendem coisas novas, às vezes eles esquecem coisas antigas. Esse é um grande desafio, já que o objetivo é criar modelos que consigam continuar evoluindo a partir do que já aprenderam. Métodos comuns pra reduzir esse esquecimento incluem armazenar dados antigos, mas isso levanta preocupações de privacidade, especialmente em áreas sensíveis como a saúde.

Em situações reais, os dados que os usuários têm podem mudar. Eles podem ter diferentes tarefas e tipos de dados em momentos variados. As abordagens tradicionais ou retêm algumas amostras de tarefas mais antigas ou não guardam nada. Essa última abordagem se torna particularmente interessante por causa das questões de privacidade.

Algumas soluções recentes tentaram criar Dados Sintéticos pra imitar tarefas anteriores enquanto combinam isso com o treinamento regular pra ajudar o modelo a lembrar do que aprendeu antes. No entanto, essas abordagens ainda enfrentam o esquecimento catastrófico, especialmente quando há um viés em relação a classes mais novas.

Apresentando o Gerador de Gêmeos Globais Federados (FedGTG)

Pra enfrentar esses desafios, apresentamos o FedGTG, um framework de FCIL que não precisa armazenar dados dos clientes. Esse método envolve duas etapas. Primeiro, após completar uma tarefa de aprendizado, um servidor cria dois geradores (um pra dados e outro pra características) sem nenhuma informação dos clientes. Isso ajuda o servidor a entender o que aprendeu até agora.

Uma vez que esses geradores são criados, eles são enviados pros clientes. Os clientes então usam esses geradores pra criar dados sintéticos e características que ajudam a manter o conhecimento de tarefas anteriores enquanto também aprendem novas tarefas de forma eficaz.

Os principais objetivos do FedGTG são:

  1. Ajudar os clientes a manterem seus dados privados enquanto usam dados sintéticos.
  2. Ajudar os clientes a reterem conhecimento de tarefas passadas e aprenderem novas informações sem perder o que já aprenderam.

Como Funciona

No final de cada tarefa, o servidor treina os geradores de dados e características. O gerador de dados cria exemplos sintéticos pra representar o que foi aprendido até agora. O gerador de características, por outro lado, foca em produzir uma saída que mantém características chave em mente.

Pros clientes, a gente propõe um método único de treinamento que combina novas tarefas com informações sobre o que já foi aprendido. Isso permite que os clientes retenham melhor o conhecimento antigo enquanto ainda se adaptam às novas demandas.

Além disso, introduzimos uma função de perda pra ajudar a influenciar quais características são importantes pro modelo ao aprender novas tarefas. Ao focar em direções de características específicas, garantimos que o modelo continue flexível o suficiente pra aprender novas informações enquanto mantém o conhecimento mais antigo intacto.

Configuração Experimental

Pra avaliar a eficácia do FedGTG, realizamos vários experimentos usando conjuntos de dados populares no espaço de FCIL. Usamos os conjuntos de dados CIFAR-10, CIFAR-100 e tiny-ImageNet pra avaliar o desempenho do nosso método em comparação com outros.

Nos nossos experimentos, dividimos os conjuntos de dados em tarefas, garantindo que cada tarefa tivesse um conjunto específico de dados. Os modelos foram então treinados usando técnicas padrão enquanto monitorávamos seu desempenho em todas as tarefas.

Resultados de Desempenho

Os resultados mostraram que o FedGTG superou métodos tradicionais em reter conhecimento e aprender novas informações com sucesso. O desempenho foi medido analisando duas métricas: Precisão Incremental Média (AIA) e Esquecimento Médio (AF).

Em todos os experimentos, o FedGTG demonstrou melhorias significativas, mostrando melhor precisão em tarefas posteriores enquanto reduzia o esquecimento. Algoritmos tradicionais como FedAvg e FedProx enfrentaram dificuldades por não terem sido projetados especificamente pra aprendizado contínuo, resultando em mais perda de conhecimento.

O design robusto do FedGTG permitiu uma retenção eficiente de conhecimento enquanto aprendia novas classes de forma eficaz. Comparado a outros modelos estabelecidos, nosso método consistently mostrou o menor esquecimento e a melhor precisão geral.

Analisando a Robustez

A gente também queria entender como o FedGTG se sai no mundo real, que geralmente envolve lidar com dados imperfeitos. Pra testar isso, analisamos como nosso modelo reagiu a mudanças nos dados de entrada. A avaliação envolveu usar dados corrompidos baseados em benchmarks padrão.

Os resultados revelaram que o FedGTG manteve uma precisão maior em várias condições em comparação com métodos mais antigos. Isso mostra que nosso método é adaptável e pode funcionar bem em ambientes imprevisíveis.

Atingindo Generalização

Outro aspecto vital de um aprendizado de máquina eficaz é a generalização, ou quão bem um modelo pode se sair quando confrontado com novos dados não vistos. Avaliamos as capacidades de generalização do FedGTG comparando-o com outros modelos pra ver como eles reagiam a diferentes distribuições de dados.

O FedGTG consistentemente demonstrou um desempenho melhor em tarefas de generalização, indicando que ele tem previsões mais estáveis em diferentes condições e é menos sensível a mudanças.

Calibração das Previsões

Calibração se refere a quão bem as probabilidades previstas de um modelo correspondem às suas precisões reais. Ter um modelo bem calibrado é crucial em aplicações onde a tomada de decisão se baseia nessas previsões.

Quando avaliamos os erros de calibração do nosso modelo em várias tarefas, o FedGTG teve menos erros que os outros. Isso sugere que nosso modelo produz previsões mais precisas e é mais fácil de interpretar em aplicações práticas.

Robustez a Diferentes Tamanhos de Clientes

Avaliamos como o FedGTG se saiu quando o número de clientes mudou. Testando com diferentes tamanhos de clientes enquanto mantivemos outros fatores iguais, confirmamos que nosso método ainda superou os outros. Mesmo com números variados de clientes, o FedGTG alcançou maior precisão e menos esquecimento.

Essa flexibilidade é um grande trunfo, especialmente em ambientes onde o número de clientes pode variar, já que isso mostra que o método é adaptável a configurações diversas.

Conclusão

Resumindo, o Gerador de Gêmeos Globais Federados (FedGTG) apresenta avanços significativos no Aprendizado Federado Classe-Incremental. Usando modelos generativos treinados no servidor, ele protege a privacidade do cliente enquanto permite aprendizado contínuo. Nossos experimentos mostram que o FedGTG efetivamente reduz o esquecimento catastrófico enquanto aprende novas tarefas.

Além disso, a robustez do framework em diferentes ambientes e tamanhos de clientes indica sua aplicabilidade prática. Acreditamos que o FedGTG representa um passo significativo em direção à criação de sistemas de aprendizado colaborativo que abordam tanto preocupações de privacidade quanto os desafios do aprendizado contínuo.

Fonte original

Título: Overcoming Catastrophic Forgetting in Federated Class-Incremental Learning via Federated Global Twin Generator

Resumo: Federated Class-Incremental Learning (FCIL) increasingly becomes important in the decentralized setting, where it enables multiple participants to collaboratively train a global model to perform well on a sequence of tasks without sharing their private data. In FCIL, conventional Federated Learning algorithms such as FedAVG often suffer from catastrophic forgetting, resulting in significant performance declines on earlier tasks. Recent works, based on generative models, produce synthetic images to help mitigate this issue across all classes, but these approaches' testing accuracy on previous classes is still much lower than recent classes, i.e., having better plasticity than stability. To overcome these issues, this paper presents Federated Global Twin Generator (FedGTG), an FCIL framework that exploits privacy-preserving generative-model training on the global side without accessing client data. Specifically, the server trains a data generator and a feature generator to create two types of information from all seen classes, and then it sends the synthetic data to the client side. The clients then use feature-direction-controlling losses to make the local models retain knowledge and learn new tasks well. We extensively analyze the robustness of FedGTG on natural images, as well as its ability to converge to flat local minima and achieve better-predicting confidence (calibration). Experimental results on CIFAR-10, CIFAR-100, and tiny-ImageNet demonstrate the improvements in accuracy and forgetting measures of FedGTG compared to previous frameworks.

Autores: Thinh Nguyen, Khoa D Doan, Binh T. Nguyen, Danh Le-Phuoc, Kok-Seng Wong

Última atualização: 2024-07-13 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.11078

Fonte PDF: https://arxiv.org/pdf/2407.11078

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes