Melhorando a Detecção da Doença da Folha do Café com Tecnologia

Índice

Trabalhos Relacionados
Aumentos Offline
Aumentos Online
Configuração Experimental
Resultados Quantitativos
Conclusões e Trabalhos Futuros
Fonte original

Detectar doenças nas folhas do café Robusta é importante pra manter as plantas saudáveis e garantir boas colheitas. Mas essa tarefa pode ser demorada e exige bastante conhecimento em botânica. Por causa disso, muitos pesquisadores têm explorado usar tecnologia, principalmente a classificação de imagens, pra facilitar esse processo.

Na classificação de doenças nas folhas, muitas abordagens usaram conjuntos de dados bem conhecidos, como o PlantVillage. Porém, esse estudo foca no conjunto de dados Robusta Coffee Leaf (RoCoLe), que é menos popular e tem seus desafios. O conjunto RoCoLe tem menos amostras e uma distribuição desequilibrada de diferentes classes, ou seja, alguns tipos de doenças estão sub-representados. Pra resolver esses desafios, o estudo aplica técnicas avançadas, incluindo modelos de deep learning e vários Métodos de Aumento de Dados.

Esse artigo tem como objetivo usar o conjunto RoCoLe pra classificar doenças nas folhas de café. Ele integra o modelo pix2pix pra segmentação de imagens e o CycleGAN pra aumento de dados. Os resultados mostram que usar modelos baseados em transformers e vários métodos de aumento de dados melhora bastante a precisão da classificação de doenças nas folhas. Embora dados sintéticos tenham suas limitações, eles podem ser um complemento valioso aos dados reais e melhorar o desempenho dos modelos de classificação.

A planta de café Robusta, conhecida como Coffea Canephora, é vulnerável a várias doenças, incluindo as causadas por insetos e fungos. Essas doenças podem impactar severamente a produção da colheita e, em casos críticos, arruinar totalmente uma safra. Ao longo dos anos, a pesquisa focou em como detectar doenças a partir de imagens, começando por humanos, depois animais e, por fim, plantas.

Geralmente, é necessário um conhecimento especializado pra identificar doenças, e isso pode levar bastante tempo pra analisar imagens com precisão. Por causa disso, tem aumentando o interesse em criar ferramentas de machine learning que sejam fáceis de usar, precisas e cautelosas nas previsões.

Nesse estudo, os pesquisadores enfrentam os desafios do conjunto RoCoLe, que sofre com um número pequeno de imagens e desequilíbrio nas classes. Esses problemas são comuns em machine learning, e uma variedade de métodos pode resolvê-los. Várias técnicas foram testadas pra descobrir qual método funcionaria melhor com o conjunto RoCoLe. As principais contribuições desse estudo incluem:

Testar diferentes combinações de aumentos de dados offline e online junto com vários modelos e hiperparâmetros. O foco é avaliar o desempenho desses aumentos e comparar modelos baseados em transformers com modelos de convolução tradicionais.
Usar técnicas de visualização e explicação pra entender os motivos por trás do desempenho dos modelos.

Até onde conseguimos saber, esse estudo é o primeiro a aumentar o conjunto RoCoLe e usá-lo pra treinar modelos baseados em transformers.

Trabalhos Relacionados

A maioria das abordagens pra classificar doenças nas folhas depende de conjuntos de dados grandes contendo dezenas de milhares de imagens. Poucos estudos utilizaram o conjunto RoCoLe de forma completa; quando fazem, geralmente é pra avaliação em vez de treinamento principal. Os métodos variam de deep learning a modelos de machine learning tradicionais.

Por exemplo, Brahimi e colegas testaram abordagens de deep learning usando arquiteturas tradicionais de rede neural convolucional (CNN), como AlexNet e GoogLeNet. Eles também avaliaram modelos clássicos de machine learning, como máquinas de vetor de suporte (SVMs) e Florestas Aleatórias. O estudo deles comparou modelos pré-treinados com aqueles treinados do zero, assim como modelos profundos treinados em dados brutos versus modelos rasos usando características extraídas manualmente.

Em outro estudo, Tassis e equipe usaram um pipeline de múltiplas etapas com três modelos diferentes pra segmentar e classificar doenças nas folhas. Eles empregaram um Mask R-CNN pra segmentação de instâncias e U-Net ou PSPNet pra segmentação semântica. Treinaram suas configurações usando vários aumentos, incluindo rotações aleatórias e mudanças de cor.

Mohameth e colegas utilizaram o popular conjunto de dados PlantVillage pra treinar seus modelos propostos, experimentando tanto com aprendizado por transferência quanto com métodos de extração de características profundas. No aprendizado por transferência, eles apenas modificaram a cabeça de classificação de um modelo pré-treinado, mantendo o resto das camadas inalteradas.

Analisando o conjunto RoCoLe, fica claro que as classes estão desequilibradas. Isso traz problemas pras arquiteturas de classificadores, já que elas tendem a favorecer as classes mais comuns e têm dificuldade em prever as menos frequentes. Notavelmente, os rótulos para os casos mais severos de ferrugem, rustlevel3 e rustlevel4, são os menos frequentes no conjunto.

Pra resolver o desequilíbrio de classes, os pesquisadores re-rotularam as amostras do conjunto de dados. Assim, rótulos como rustlevel1 foram mudados pra rustlevellow, enquanto rustlevel3 e rustlevel4 foram agrupados sob rustlevelhigh.

Antes de abordar o desequilíbrio de classes, as imagens do conjunto RoCoLe passaram por análise. Dado que as imagens foram capturadas usando câmeras de smartphone com uma resolução de 1152x2048, usar essas imagens de alta resolução pra deep learning exigiria recursos computacionais significativos sem muito benefício. Portanto, as imagens foram redimensionadas pra uma resolução mais gerenciável de 256x256.

O conjunto inicial foi dividido aleatoriamente em conjuntos de treino, desenvolvimento e teste, com 80% alocados pra treino e os restantes 20% divididos igualmente entre desenvolvimento e teste. Após essa divisão, o aumento foi aplicado aos conjuntos de treino e desenvolvimento antes de serem divididos novamente. O conjunto de teste permaneceu intacto pra garantir que as métricas de desempenho do modelo refletissem resultados em dados reais.

Como os fundos das imagens eram bem aleatórios e adicionavam pouco valor informativo, imagens mascaradas foram usadas pra treinar classificadores. As máscaras fornecidas com as imagens foram aplicadas pra que apenas as partes de interesse, ou seja, as folhas de café, fossem incluídas. No entanto, muitos exemplos não vieram com segmentação, o que exigiu lidar com o problema da segmentação aprendendo a separar as folhas do fundo. O modelo pix2pix se mostrou bem adequado pra essa tarefa.

Pra melhorar a qualidade das máscaras de segmentação previstas, técnicas de aumento online também foram empregadas, incluindo recortes e inversão aleatória de imagens. Após treinar o modelo pix2pix, as máscaras foram inferidas pra cada imagem e aplicadas pra destacar as folhas com precisão.

Aumentos Offline

Pra lidar com o desequilíbrio de classes, os pesquisadores empregaram técnicas de geração de imagens pra criar mais exemplos das classes menos frequentes. Os dados de frequência indicaram que a classe saudável era a mais prevalente. Isso permitiu aumentar outras classes adaptando o estilo de imagens com folhas doentes pra aquelas com folhas saudáveis.

O modelo CycleGAN foi eficaz pra essa tarefa de transferência de estilo, já que não requer entradas pareadas e pode trabalhar bem com entradas não pareadas. Além de aprender o mapeamento do domínio de origem pro domínio alvo, o CycleGAN também aprende a reverter o mapeamento. Ele introduz uma perda de consistência cíclica pra garantir que, quando uma imagem passa pelos geradores, a saída deve se parecer com a imagem original.

Pra gerar imagens aumentadas, o CycleGAN foi treinado em imagens segmentadas de cada combinação de classes saudáveis e doentes. Após o treinamento, as imagens doentes geradas complementaram as amostras disponíveis de cada classe doente, garantindo que todas as classes tivessem um número igual de amostras.

Aumentos Online

Durante o treinamento, vários métodos de aumento online foram testados. Dentre as técnicas mais simples, foram aplicadas inversões horizontais e verticais junto com rotações aleatórias. As imagens foram rotacionadas por ângulos aleatórios entre 0 e 180 graus e então invertidas com probabilidade de 25%.

Técnicas mais avançadas incluíram MixUp, CutMix, Cutout, e FMix, que foram incorporadas durante o processamento em lotes. Com uma chance de 50%, um aumento foi aplicado ao lote; caso contrário, o lote permaneceu inalterado. Os parâmetros foram sorteados aleatoriamente de uma distribuição beta sempre que um aumento ocorria.

Uma vez que o conjunto de dados passou pelo aumento, ele estava pronto pra treinar modelos de classificação. Portanto, arquiteturas baseadas em transformers como ViT e CvT foram testadas usando diferentes hiperparâmetros e técnicas de aumento. Comparações também foram feitas com modelos de convolução como ResNet.

Configuração Experimental

Métricas de Desempenho

Pra avaliar o desempenho do modelo, os pesquisadores usaram uma média macro pra combinar métricas como precisão, precisão, recall e F1-score. Além dos testes iniciais com ViT e ResNet, a precisão top-k também foi considerada, ou seja, uma previsão era considerada precisa se uma das top-k saídas com a maior confiança estivesse correta. A precisão top-2 foi especialmente notada.

Configuração do Pix2pix

O modelo pix2pix foi treinado usando o otimizador Adam e parâmetros específicos de taxa de aprendizado e momento. O modelo foi treinado por um total de 25 épocas em todo o conjunto de dados.

Configuração do CycleGAN

Os modelos CycleGAN também foram treinados usando o otimizador Adam com parâmetros semelhantes aos usados pro modelo pix2pix. Eles foram treinados em todo o conjunto segmentado por 100 épocas.

Configuração do Modelo de Classificação

Os modelos de classificação foram treinados com um tamanho de lote definido em 32, com algumas exceções usando tamanho de 16 devido a recursos limitados. O mesmo otimizador Adam foi empregado, junto com um agendador de taxa de aprendizado.

Resultados Quantitativos

Resultados dos Aumentos Offline

Os pesquisadores começaram testando o modelo ViT-small com vários hiperparâmetros pra determinar as configurações ideais pra modelos futuros. Geralmente, o aumento mostrou efeitos positivos no desempenho do modelo.

Por exemplo, as pontuações do modelo foram notavelmente mais altas quando treinadas em conjuntos de dados aumentados em comparação com os não aumentados. Em ocasiões em que o modelo teve um desempenho pior com aumento, geralmente foi devido ao overfitting na classe mais frequente no conjunto não aumentado.

Resultados dos Aumentos Online

Semelhante aos métodos offline, aumentos online frequentemente melhoraram o desempenho. Notavelmente, o FMix teve o melhor desempenho em geral. O estudo determinou que certas estratégias de aumento ajudaram os modelos a se concentrar melhor nas partes críticas das folhas e os tornaram menos propensos ao overfitting.

Visualizações T-SNE

Usando T-SNE, os pesquisadores visualizaram as características latentes das imagens pra mostrar como as imagens geradas se comparavam com as reais no espaço de distribuição de entrada. As visualizações indicaram que, enquanto diferentes classes se agrupavam juntas, havia alguma sobreposição, especialmente com imagens sintéticas se misturando na representação das reais.

Visualizações CAM

As visualizações de Mapeamento de Ativação de Classe (CAM) forneceram insights sobre como os modelos se concentraram em diferentes partes das imagens. Modelos treinados usando aumentos online tendiam a prestar mais atenção ao fundo e à imagem geral em vez de apenas à área central. Em contraste, modelos treinados apenas com dados sintéticos mostraram uma tendência a focar nas bordas e em vários artefatos presentes nas imagens geradas.

Conclusões e Trabalhos Futuros

Esse estudo ilustra um pipeline de deep learning focado na classificação de doenças nas folhas usando o conjunto RoCoLe. A integração do pix2pix pra segmentação e do CycleGAN pra aumento de dados provou ser benéfica. Usar aumentos junto com modelos transformers melhorou substancialmente o desempenho da classificação em comparação com modelos de convolução sozinhos.

Apesar de os achados indicarem que dados sintéticos apenas capturam de forma aproximada as distribuições dos dados reais, o uso de conjuntos de dados aumentados contribuiu positivamente pro desempenho do modelo.

Seguindo em frente, há oportunidades pra melhorias, como empregar o modelo de tradução de imagem de múltiplos domínios StarGAN pra aumentar o conjunto RoCoLe de forma mais eficiente. Outras variações de GANs também podem trazer resultados positivos. Melhorar a segmentação de folhas através de segmentação semântica é outra avenida, embora possa aumentar os custos computacionais. Uma alternativa mais econômica poderia envolver métodos como CAM ou GradCAM.

Por fim, futuros trabalhos poderiam explorar o uso de diferentes arquiteturas de transformers ou modelos visão-linguagem que aproveitem os avanços atuais na classificação de imagens.

Melhorando a Detecção da Doença da Folha do Café com Tecnologia

Estudo melhora a classificação de doenças nas folhas de café usando avanços tecnológicos e técnicas de dados.

Trabalhos Relacionados

Aumentos Offline

Aumentos Online

Configuração Experimental

Métricas de Desempenho

Configuração do Pix2pix

Configuração do CycleGAN

Configuração do Modelo de Classificação

Resultados Quantitativos

Resultados dos Aumentos Offline

Resultados dos Aumentos Online

Visualizações T-SNE

Visualizações CAM

Conclusões e Trabalhos Futuros

Tópicos referenciados

Melhorando a Detecção da Doença da Folha do Café com Tecnologia

Estudo melhora a classificação de doenças nas folhas de café usando avanços tecnológicos e técnicas de dados.

#Trabalhos Relacionados

#Aumentos Offline

#Aumentos Online

#Configuração Experimental

#Métricas de Desempenho

#Configuração do Pix2pix

#Configuração do CycleGAN

#Configuração do Modelo de Classificação

#Resultados Quantitativos

#Resultados dos Aumentos Offline

#Resultados dos Aumentos Online

#Visualizações T-SNE

#Visualizações CAM

#Conclusões e Trabalhos Futuros

Tópicos referenciados

Trabalhos Relacionados

Aumentos Offline

Aumentos Online

Configuração Experimental

Métricas de Desempenho

Configuração do Pix2pix

Configuração do CycleGAN

Configuração do Modelo de Classificação

Resultados Quantitativos

Resultados dos Aumentos Offline

Resultados dos Aumentos Online

Visualizações T-SNE

Visualizações CAM

Conclusões e Trabalhos Futuros