Novo Framework Melhora Reconhecimento de Alvos SAR
Uma abordagem semi-supervisionada dá um gás no reconhecimento automático de alvos SAR com dados rotulados limitados.
― 6 min ler
Índice
Nos últimos anos, o Radar de Abertura Sintética (SAR) se tornou uma ferramenta importante tanto para tarefas militares quanto civis. Um uso chave do SAR é o Reconhecimento Automático de Alvos (ATR), que envolve identificar e classificar objetos em imagens SAR. Embora métodos de aprendizado profundo, especialmente redes neurais convolucionais (CNNs), tenham sido bem-sucedidos nesse campo, eles geralmente precisam de muitos dados rotulados para se sair bem.
Mas, na vida real, principalmente durante emergências como terremotos ou operações de busca e salvamento no mar, é difícil reunir uma quantidade suficiente de imagens SAR rotuladas. Essa escassez de dados rotulados pode limitar o desempenho de muitos métodos ATR existentes. Por isso, há um interesse crescente em aprendizado com poucos exemplos (FSL), um tipo de aprendizado de máquina onde o modelo aprende a reconhecer novas classes a partir de poucos exemplos.
Desafios Atuais
Muitas abordagens atuais de FSL em ATR SAR se enquadram em três categorias principais: Aumento de Dados, métodos baseados em métricas e métodos baseados em modelos. Técnicas de aumento de dados aumentam o número de imagens de treinamento disponíveis ou melhoram a qualidade delas. Por exemplo, certos métodos usam redes adversariais geradoras (GANs) para criar novas imagens SAR com base em um pequeno conjunto de amostras reais.
Métodos baseados em métricas se concentram em aprender a comparar diferentes classes e podem se generalizar para novas categorias com poucos exemplos. Essas abordagens geralmente envolvem medir a distância entre características das amostras para categorizá-las corretamente.
Métodos baseados em modelos usam o conhecimento existente para criar uma estrutura de aprendizado. Esses métodos podem incluir máquinas de vetor de suporte (SVM) que funcionam com dados rotulados limitados.
Apesar dos avanços nessas técnicas, elas ainda enfrentam desafios. Por exemplo, a capacidade de aprender de maneira eficaz a partir de amostras limitadas depende de ter um viés indutivo forte, que pode ser difícil de estabelecer quando há uma grande diferença entre poucas e muitas amostras de treinamento. Por isso, muitos métodos atuais funcionam principalmente maximizando as informações que conseguem extrair das poucas amostras rotuladas que têm, sem aprender com os dados não rotulados.
A Estrutura Proposta
Para resolver esses problemas, foi proposta uma nova estrutura semi-supervisionada de ATR SAR, que usa um método chamado Segmentação auxiliar transdutiva. Essa estrutura visa usar melhor os dados não rotulados para melhorar o reconhecimento de objetos, confiando apenas em um pequeno número de amostras rotuladas.
A estrutura consiste em vários blocos:
- Um extrator de características compartilhadas que reúne características comuns de todas as imagens.
- Um classificador que identifica as amostras rotuladas.
- Um decodificador que ajuda a segmentar as imagens não rotuladas.
A ideia é empregar uma função de perda auxiliar que atua como um regularizador para melhorar o aprendizado do modelo a partir de dados não rotulados, aprimorando assim o desempenho geral do reconhecimento.
Processo de Treinamento
O processo de treinamento é organizado em duas fases principais: geração de dados e treinamento. Durante a fase de geração de dados, conjuntos rotulados e não rotulados são criados selecionando amostras aleatórias do conjunto de dados principal.
Em seguida, o loop de treinamento inclui duas rodadas de treinamento semi-cego para tarefas de reconhecimento e segmentação. Esse processo de treinamento duplo permite que o modelo aprenda de forma eficaz tanto com os dados rotulados quanto com os não rotulados. Ao alternar entre reconhecer objetos e segmentar imagens, o modelo melhora gradualmente sua compreensão e desempenho.
Extrator de Características Compartilhadas
Esse componente é crucial para reunir características das imagens SAR. O extrator usa camadas convolucionais organizadas de uma forma que ajuda a aprender representações eficazes das imagens, enquanto também faz uso de mecanismos de atenção que se concentram em características vitais.
Classificador e Decodificador
O classificador é responsável por identificar os objetos nas imagens rotuladas, enquanto o decodificador trabalha na segmentação das imagens não rotuladas. Essas partes da arquitetura trabalham juntas, visando melhorar o desempenho uma da outra através de informações compartilhadas.
Resultados Experimentais
A estrutura proposta foi testada usando o conjunto de dados MSTAR, que consiste em várias classes de alvos terrestres capturados através de SAR. Esse conjunto de dados serve como um benchmark no campo de ATR SAR, permitindo a comparação de resultados de diferentes métodos.
Os achados dos experimentos mostram que a nova estrutura pode ter um desempenho excepcional, mesmo quando o número de amostras rotuladas é muito pequeno. Por exemplo, em certas condições, ela alcançou taxas de reconhecimento acima de 94% com apenas 20 amostras de treinamento de cada classe. Quando amostras adicionais foram utilizadas, o desempenho de reconhecimento melhorou ainda mais, demonstrando a adaptabilidade e eficácia da estrutura.
Desempenho Sob Diferentes Condições
Em aplicações do mundo real, as condições podem variar significativamente. Por exemplo, o desempenho de reconhecimento da estrutura proposta também foi avaliado sob condições operacionais estendidas (EOCs), que simulam vários desafios, como diferentes ângulos de captura de imagens ou variações na configuração do alvo.
Os resultados indicaram que a estrutura manteve um alto desempenho mesmo diante desses desafios, confirmando sua robustez e praticidade.
Desempenho de Segmentação
A segmentação refere-se ao processo de distinguir diferentes elementos dentro de uma imagem. Nesta estrutura, a segmentação precisa é crucial para melhorar as capacidades de reconhecimento. A estrutura conseguiu atingir uma precisão de segmentação de mais de 99% tanto para objetos quanto para o fundo, o que significa que o modelo é capaz de identificar e categorizar características nas imagens SAR de maneira eficaz.
Comparação Com Outros Métodos
A estrutura proposta foi comparada com vários métodos existentes, incluindo abordagens tradicionais e algumas das últimas inovações em técnicas de aprendizado com poucos exemplos. Os resultados mostraram que, mesmo com um número limitado de amostras de treinamento, o método proposto superou consistentemente a maioria das técnicas tradicionais e contemporâneas.
Isso marca um avanço significativo para ATR SAR, onde identificar alvos a partir de um número limitado de exemplos rotulados é vital, como em situações de emergência.
Conclusão
Em resumo, o desenvolvimento da estrutura semi-supervisionada de ATR SAR representa um avanço promissor no campo. Ao usar efetivamente tanto dados rotulados quanto não rotulados, ela enfrenta os desafios impostos por amostras de treinamento limitadas. A estrutura não só melhora o desempenho de reconhecimento, mas também aprimora o processo de segmentação, tornando-se uma ferramenta valiosa para aplicações do mundo real de SAR.
Com mais desenvolvimento e refinamento, essa abordagem pode levar a soluções mais eficientes e eficazes no reconhecimento de alvos SAR, especialmente em situações onde tempo e recursos são limitados.
Título: Semi-Supervised SAR ATR Framework with Transductive Auxiliary Segmentation
Resumo: Convolutional neural networks (CNNs) have achieved high performance in synthetic aperture radar (SAR) automatic target recognition (ATR). However, the performance of CNNs depends heavily on a large amount of training data. The insufficiency of labeled training SAR images limits the recognition performance and even invalidates some ATR methods. Furthermore, under few labeled training data, many existing CNNs are even ineffective. To address these challenges, we propose a Semi-supervised SAR ATR Framework with transductive Auxiliary Segmentation (SFAS). The proposed framework focuses on exploiting the transductive generalization on available unlabeled samples with an auxiliary loss serving as a regularizer. Through auxiliary segmentation of unlabeled SAR samples and information residue loss (IRL) in training, the framework can employ the proposed training loop process and gradually exploit the information compilation of recognition and segmentation to construct a helpful inductive bias and achieve high performance. Experiments conducted on the MSTAR dataset have shown the effectiveness of our proposed SFAS for few-shot learning. The recognition performance of 94.18\% can be achieved under 20 training samples in each class with simultaneous accurate segmentation results. Facing variances of EOCs, the recognition ratios are higher than 88.00\% when 10 training samples each class.
Autores: Chenwei Wang, Xiaoyu Liu, Yulin Huang, Siyi Luo, Jifang Pei, Jianyu Yang, Deqing Mao
Última atualização: 2023-08-31 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2308.16633
Fonte PDF: https://arxiv.org/pdf/2308.16633
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://doi.org/
- https://www.mdpi.com/ethics
- https://doi.org/10.1109/ACCESS.2021.3119561
- https://doi.org/10.1109/MAES.2021.3049857
- https://doi.org/10.1109/MAES.2021.3117369
- https://doi.org/10.1109/TAES.2018.2864809
- https://doi.org/10.1109/TGRS.2018.2810181
- https://doi.org/10.1145/3386252
- https://doi.org/10.1016/j.neucom.2021.03.037
- https://doi.org/10.1109/TGRS.2018.2845944
- https://doi.org/10.1109/MLSP52302.2021.9596284
- https://doi.org/10.1109/TGRS.2022.3141125
- https://doi.org/10.1109/TGRS.2021.3108585
- https://doi.org/10.1109/LGRS.2021.3124071
- https://doi.org/10.1109/JSTARS.2018.2792841
- https://doi.org/10.1109/LGRS.2021.3064578
- https://doi.org/10.1109/LGRS.2019.2958379
- https://www.mdpi.com/authors/references