Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Aprendizagem de máquinas

Avanço da Imagem Termal Através da Adaptação Ativa de Domínio

Um método novo combina luz visível e imagens térmicas pra melhorar a precisão da classificação.

― 7 min ler


Imagens térmicasImagens térmicasencontram adaptação ativada classificação de imagens térmicas.Técnicas inovadoras melhoram a precisão
Índice

Nos últimos anos, a área de visão computacional deu grandes avanços, especialmente com o uso de métodos de deep learning. Esses métodos funcionam bem com imagens RGB padrão. Mas, em situações do mundo real, as condições podem não ser ideais, como em iluminação ruim. Nesses casos, modelos tradicionais treinados com imagens de luz visível podem não ter um bom desempenho. É aí que entram as câmeras térmicas, já que elas conseguem capturar imagens independentemente dos problemas de iluminação.

Usar Imagens Térmicas em aplicações como segurança, direção autônoma e operações militares pode ser muito útil. Mas tem um desafio: grandes conjuntos de dados de imagens térmicas não estão tão facilmente disponíveis quanto os de RGB.

Uma solução para esse problema é conhecida como adaptação de domínio. Isso permite compartilhar informações de um conjunto de dados onde as etiquetas estão disponíveis (a fonte) para um conjunto onde não estão (o alvo). A adaptação de domínio não supervisionada (UDA) pode ajudar a transferir conhecimento de um conjunto de dados para outro sem precisar de muitos dados rotulados do conjunto alvo. Porém, ainda há uma diferença de desempenho perceptível quando comparamos UDA com métodos tradicionais de aprendizado supervisionado.

Para fechar essa lacuna, os pesquisadores desenvolveram a Adaptação de Domínio Ativa. Esse método envolve selecionar alguns exemplos do domínio alvo para rotular e treinar, minimizando a quantidade de rotulação manual necessária.

A Necessidade de Imagens Térmicas

Os métodos de deep learning tiveram muito sucesso usando conjuntos de dados de luz visível, mas condições de pouca luz podem atrapalhar o desempenho deles. Câmeras térmicas são menos afetadas por esses desafios e oferecem uma alternativa promissora. Dito isso, conseguir grandes conjuntos de dados rotulados de imagens térmicas geralmente é difícil.

Embora existam modelos treinados com imagens térmicas, eles normalmente não têm um desempenho tão bom quanto os treinados com imagens RGB. Para melhorar a eficácia deles, os pesquisadores têm buscado combinar informações de imagens de luz visível e térmicas. No entanto, usar modelos treinados com RGB pode não dar bons resultados quando testados com imagens térmicas.

Visão Geral do Método Proposto

O método que apresentamos foca em combinar imagens de luz visível e térmicas. A ideia principal é selecionar efetivamente amostras alvo não rotuladas que forneçam as informações mais valiosas, enquanto também se alinha os domínios fonte e alvo.

Esse método é conhecido como adaptação de domínio ativa guiada por transferência espectral. O processo envolve manipular as características das amostras de origem usando as amostras alvo. Especificamente, a transformada de Fourier ajuda a mudar as características de amplitude das imagens. Depois, treinamos um modelo usando essas amostras de origem transformadas.

Durante o processo de treinamento, o modelo escolhe quais amostras alvo focar com base em quão semelhantes elas são à fronteira de decisão. Isso permite que o modelo selecione as amostras mais informativas para rotular, que serão usadas para mais treinamento.

Abordando a Mudança de Domínio

Para o método proposto funcionar efetivamente, precisamos enfrentar a diferença nas características entre as imagens visíveis e térmicas. Técnicas de adaptação de domínio são usadas para aprender um espaço de características unificado para ambos os domínios. Métodos tradicionais de UDA assumem que o domínio alvo não tem dados rotulados, tornando difícil rotular todos os dados devido aos custos.

Em vez disso, com aprendizado ativo, podemos optar por rotular apenas uma fração dos dados. Essa abordagem reduz custos e se concentra nas amostras mais informativas. Métodos de aprendizado ativo normalmente se concentram em selecionar amostras com base na Incerteza, mas a diferença nas características entre os conjuntos de dados fonte e alvo representa um desafio.

Recentes técnicas de adaptação de domínio ativa consideraram as diferenças de domínio a partir de duas perspectivas: algumas se concentram em alinhar os espaços de características explicitamente, enquanto outras não focam no alinhamento do domínio. Em tarefas onde há uma lacuna significativa de domínio, um alinhamento de domínio efetivo pode melhorar significativamente o desempenho.

Implementando Transferência Espectral

O método proposto usa transferência espectral para reduzir a lacuna do domínio trocando componentes de baixa frequência entre as amostras fonte e alvo. Esse passo visa criar um melhor ajuste entre os dois tipos de imagens durante o processo de treinamento.

Assim que a transformação é aplicada, as novas amostras de origem passam por treinamento de classificação. O modelo então seleciona as amostras alvo usando uma função de consulta que considera tanto sua posição em relação à fronteira de decisão quanto as características das previsões do modelo.

As amostras alvo selecionadas são rotuladas por um especialista (oráculo) e usadas para melhorar ainda mais o modelo. Isso se repete durante épocas específicas ao longo do treinamento, permitindo que o modelo continue aprendendo dinamicamente à medida que analisa novas informações.

Configuração Experimental

Para validar o método proposto, usamos um conjunto de dados conhecido do espectro visível como fonte e um conjunto de dados térmicos como alvo. Os conjuntos de dados consistem em imagens anotadas com classes específicas, como bicicletas, carros e pessoas.

O conjunto de dados RGB tinha um grande número de amostras para cada classe, enquanto o conjunto térmico era mais limitado, apresentando desafios típicos em aplicações do mundo real, onde o desequilíbrio de classes é comum.

Metodologia

Utilizamos uma arquitetura ResNet-50 como nossa base para extração de características. O processo de treinamento envolveu várias rodadas de amostragem ativa, onde uma pequena porcentagem de amostras alvo foi rotulada, e o modelo foi refinado ainda mais usando essa nova informação.

Durante a experimentação, comparamos nosso método proposto com outras técnicas de adaptação de domínio ativa para estabelecer benchmarks de desempenho.

Resultados

Os resultados indicaram que nosso método proposto superou significativamente os modelos de última geração existentes. Observamos uma melhor precisão de classificação em todas as classes, especialmente para as classes com menos amostras no conjunto de dados fonte, mostrando que o modelo teve um desempenho melhor ao equilibrar a performance entre as classes.

Além disso, realizamos testes de calibração para ver quão bem as pontuações de confiança previstas dos modelos corresponderam à acurácia real. Nosso método proposto mostrou uma calibração superior em comparação com outras técnicas, implicando que ele poderia fornecer previsões mais confiáveis.

Adicionalmente, visualizações t-SNE demonstraram como nosso modelo discriminou efetivamente amostras de diferentes classes melhor do que os métodos existentes.

Conclusão

Neste estudo, apresentamos um método que combina espectro visível e imagens térmicas aproveitando a adaptação de domínio ativa. Ao usar técnicas de transferência espectral, conseguimos melhorar o desempenho em imagens térmicas enquanto abordamos efetivamente a transferência de informações de imagens RGB.

Os resultados quantitativos e qualitativos indicam que nosso método pode fechar a lacuna entre os domínios RGB e térmico, mostrando potencial para futuras aplicações em diversas situações práticas. Este trabalho representa um avanço no uso das forças de ambos os tipos de imagens para enfrentar desafios em várias aplicações do mundo real.

Fonte original

Título: Spectral Transfer Guided Active Domain Adaptation For Thermal Imagery

Resumo: The exploitation of visible spectrum datasets has led deep networks to show remarkable success. However, real-world tasks include low-lighting conditions which arise performance bottlenecks for models trained on large-scale RGB image datasets. Thermal IR cameras are more robust against such conditions. Therefore, the usage of thermal imagery in real-world applications can be useful. Unsupervised domain adaptation (UDA) allows transferring information from a source domain to a fully unlabeled target domain. Despite substantial improvements in UDA, the performance gap between UDA and its supervised learning counterpart remains significant. By picking a small number of target samples to annotate and using them in training, active domain adaptation tries to mitigate this gap with minimum annotation expense. We propose an active domain adaptation method in order to examine the efficiency of combining the visible spectrum and thermal imagery modalities. When the domain gap is considerably large as in the visible-to-thermal task, we may conclude that the methods without explicit domain alignment cannot achieve their full potential. To this end, we propose a spectral transfer guided active domain adaptation method to select the most informative unlabeled target samples while aligning source and target domains. We used the large-scale visible spectrum dataset MS-COCO as the source domain and the thermal dataset FLIR ADAS as the target domain to present the results of our method. Extensive experimental evaluation demonstrates that our proposed method outperforms the state-of-the-art active domain adaptation methods. The code and models are publicly available.

Autores: Berkcan Ustun, Ahmet Kagan Kaya, Ezgi Cakir Ayerden, Fazil Altinel

Última atualização: 2023-04-14 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2304.07031

Fonte PDF: https://arxiv.org/pdf/2304.07031

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes