Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Inteligência Artificial

DCP-NAS: Pesquisa Eficiente para CNNs de 1-Bit

O DCP-NAS melhora a busca por arquitetura neural para redes convolucionais de 1-bit que economizam recursos.

― 6 min ler


DCP-NAS para CNNs deDCP-NAS para CNNs de1-Bitneurais eficientes.Novo método facilita a busca por redes
Índice

A busca por arquitetura neural (NAS) é um método que ajuda a criar e melhorar redes neurais, que são usadas em várias tarefas como classificação de imagens e reconhecimento de objetos. Mas, geralmente, a NAS requer muita potência de computação e memória. Por outro lado, as redes neurais convolucionais de 1 bit (CNNs) têm pesos e ativações que são reduzidos a apenas um bit. Isso as torna adequadas para dispositivos com recursos limitados.

Para juntar as vantagens de ambos, apresentamos um novo método chamado Busca de Arquitetura Neural Discrepante Filho-Pai (DCP-NAS). Esse método procura pelas melhores CNNs de 1 bit usando a orientação de um modelo mais poderoso com valores reais. O objetivo é acelerar a busca e torná-la mais eficiente, alcançando um desempenho melhor em tarefas como classificação de imagens.

Contexto

Nos últimos anos, o interesse em NAS tem crescido, graças à sua capacidade de gerar automaticamente arquiteturas de redes neurais eficientes. As abordagens tradicionais dependem do design manual das redes, o que pode ser demorado e nem sempre traz os melhores resultados. A busca por arquitetura neural automatiza esse processo, mas pode ser cara em termos de computação.

As CNNs de 1 bit surgiram como uma solução promissora para cenários onde os recursos computacionais são limitados. Ao reduzir pesos e ativações para um bit, essas redes podem economizar memória e reduzir bastante as necessidades de computação.

O DCP-NAS busca unir a NAS convencional e as CNNs de 1 bit, fazendo uma busca eficiente por arquiteturas binárias ótimas usando um modelo com valores reais como guia.

Necessidade do DCP-NAS

Binarizar um modelo com valores reais diretamente pode levar a um desempenho abaixo do ideal. O método DCP-NAS aborda o problema por meio da propagação tangente, que ajuda a encontrar uma arquitetura neural de 1 bit com melhor desempenho. Ao guiar a busca com um modelo de valores reais, o DCP-NAS otimiza o processo de busca, melhorando os resultados em comparação com métodos anteriores.

Metodologia

Visão Geral do Framework

O DCP-NAS introduz um framework Filho-Pai para buscar CNNs de 1 bit. O modelo com valores reais serve como o Pai, fornecendo direção para otimizar o modelo Filho de 1 bit. Essa interação permite aproveitar os pontos fortes de ambas as arquiteturas.

  1. Direção Tangente: O modelo Pai calcula uma direção tangente, que ajuda o modelo Filho a encontrar sua arquitetura ideal.
  2. Relação de Acoplamento: Notamos que pesos e parâmetros de arquitetura estão inter-relacionados em frameworks diferenciáveis. Para resolver isso, o DCP-NAS inclui otimização desacoplada para gerenciar melhor essas interações.
  3. Processo de Otimização: A otimização usa a direção tangente do modelo Pai, guiando a busca pela arquitetura do modelo Filho.

Definição do Espaço de Busca

No DCP-NAS, a busca é feita dentro de um espaço definido que consiste em células de computação que formam a espinha dorsal da rede neural.

  1. Cada célula é organizada como um grafo acíclico dirigido (DAG) com uma estrutura fixa.
  2. Operações como convolução, pooling e conexões de salto estão incluídas no espaço de busca.
  3. O objetivo é encontrar uma combinação de operações que traga o melhor desempenho para a rede neural de 1 bit.

Relação Filho-Pai

No framework DCP-NAS, o modelo Pai oferece insights sobre como o modelo Filho deve ser estruturado. Aproveitando a velocidade de aprendizado superior do modelo com valores reais, orientamos a busca pela arquitetura binária de forma eficaz.

O processo DCP-NAS envolve:

  • Realizar a busca com valores reais para coletar dados de desempenho.
  • Fazer a propagação tangente para encontrar parâmetros otimizados para o modelo Filho.
  • Usar otimização desacoplada para resolver desafios ligados ao acoplamento de pesos e arquitetura.

Validação Experimental

A eficácia do DCP-NAS foi validada através de uma série de experimentos em conjuntos de dados populares, como CIFAR-10 e ImageNet.

  1. Conjuntos de Dados:

    • CIFAR-10 consiste em 60.000 imagens coloridas de 32x32 em 10 classes diferentes.
    • ImageNet inclui mais de um milhão de imagens abrangendo 1.000 categorias diferentes.
  2. Comparação: O DCP-NAS foi comparado com vários métodos existentes, incluindo arquiteturas feitas à mão e anteriormente buscadas.

Resultados

Os resultados mostraram que o DCP-NAS superou significativamente os métodos anteriores.

  1. Precisão: O DCP-NAS alcançou taxas de precisão mais altas em tarefas de classificação em comparação com métodos tradicionais.
  2. Eficiência: O método demonstrou um bom equilíbrio entre custo computacional e desempenho, estabelecendo-se como uma solução mais eficiente para buscar CNNs de 1 bit.

Transferência de Arquitetura

Para avaliar ainda mais a generalização do DCP-NAS, arquiteturas foram transferidas para outras tarefas, como reidentificação de pessoas e detecção de objetos.

  1. Reidentificação de Pessoas: Essa tarefa envolve reconhecer indivíduos em diferentes imagens capturadas de ângulos ou ambientes variados.
  2. Detecção de Objetos: A arquitetura foi testada na detecção e classificação de objetos dentro de imagens.

Em ambos os casos, as arquiteturas DCP-NAS mostraram um desempenho sólido, confirmando sua adaptabilidade em diversas aplicações.

Conclusão

O DCP-NAS apresenta uma solução robusta para buscar eficientemente CNNs de 1 bit. Ao utilizar uma abordagem combinada Filho-Pai e focar na propagação tangente, o método alcança ganhos de desempenho notáveis enquanto reduz a sobrecarga computacional. Os resultados em diferentes tarefas afirmam a eficácia e versatilidade do DCP-NAS, sugerindo seu potencial para aplicação ampla em ambientes com recursos restritos.

Trabalho Futuro

Continuando a aprimorar o DCP-NAS, pesquisas futuras explorarão sua aplicação em modelos de transformadores para ampliar o escopo das buscas de arquiteturas binárias. Além disso, investigar métodos de otimização alternativos pode levar a redes neurais ainda mais compactas e eficientes.

Ao avançar ainda mais o framework, o DCP-NAS pode desempenhar um papel fundamental no futuro da busca por arquitetura neural, ampliando seu uso em várias indústrias e aplicações.

Fonte original

Título: DCP-NAS: Discrepant Child-Parent Neural Architecture Search for 1-bit CNNs

Resumo: Neural architecture search (NAS) proves to be among the effective approaches for many tasks by generating an application-adaptive neural architecture, which is still challenged by high computational cost and memory consumption. At the same time, 1-bit convolutional neural networks (CNNs) with binary weights and activations show their potential for resource-limited embedded devices. One natural approach is to use 1-bit CNNs to reduce the computation and memory cost of NAS by taking advantage of the strengths of each in a unified framework, while searching the 1-bit CNNs is more challenging due to the more complicated processes involved. In this paper, we introduce Discrepant Child-Parent Neural Architecture Search (DCP-NAS) to efficiently search 1-bit CNNs, based on a new framework of searching the 1-bit model (Child) under the supervision of a real-valued model (Parent). Particularly, we first utilize a Parent model to calculate a tangent direction, based on which the tangent propagation method is introduced to search the optimized 1-bit Child. We further observe a coupling relationship between the weights and architecture parameters existing in such differentiable frameworks. To address the issue, we propose a decoupled optimization method to search an optimized architecture. Extensive experiments demonstrate that our DCP-NAS achieves much better results than prior arts on both CIFAR-10 and ImageNet datasets. In particular, the backbones achieved by our DCP-NAS achieve strong generalization performance on person re-identification and object detection.

Autores: Yanjing Li, Sheng Xu, Xianbin Cao, Li'an Zhuo, Baochang Zhang, Tian Wang, Guodong Guo

Última atualização: 2023-06-27 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2306.15390

Fonte PDF: https://arxiv.org/pdf/2306.15390

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes