Avanços em IA para Diagnóstico de Doenças Oculares
Usando deep learning pra melhorar a detecção de problemas oculares ligados ao diabetes.
― 7 min ler
Índice
Doenças crônicas são uma das maiores causas de morte no mundo. Elas representam cerca de 70% de todas as mortes. Um dos maiores problemas é a diabetes, que atinge mais de 422 milhões de pessoas globalmente. Esse número pode chegar a 700 milhões até 2045. A diabetes pode causar complicações sérias, incluindo problemas de visão. Uma dessas complicações é a Degeneração Macular Relacionada à Idade (DMRI), que pode levar à cegueira, especialmente em adultos mais velhos.
A DMRI é um grande problema que afeta milhões de pessoas. Ela tem dois tipos: úmida e seca. A DMRI seca é mais comum, representando cerca de 85% dos casos. Embora geralmente tenha um resultado melhor que a úmida, a DMRI úmida causa a maior parte das perdas severas de visão associadas a essa condição. A má visão causada pela DMRI pode aumentar os riscos de quedas, depressão e a necessidade de cuidados a longo prazo se a pessoa não conseguir gerenciar as tarefas do dia a dia.
Outro problema ocular ligado à diabetes é a Retinopatia Diabética (RD), que acontece em cerca de 33% dos pacientes diabéticos. A RD é a principal causa de cegueira prevenível no mundo. Outros problemas oculares relacionados incluem o Edema Macular Diabético (EMD) e o crescimento anormal de vasos sanguíneos nos olhos. Este estudo analisa como programas de computador podem classificar essas condições oculares usando imagens médicas.
Desenvolvimentos recentes mostraram que programas de computador de Aprendizado Profundo, especialmente os que usam técnicas específicas de imagem como Tomografia de Coerência Óptica (OCT) e imagens de fundo de olho, conseguem identificar características importantes automaticamente. Essas características ajudam a identificar vários problemas oculares, tornando o diagnóstico mais eficiente.
O que é Aprendizado Profundo?
Aprendizado profundo é um tipo de inteligência artificial que ajuda os computadores a aprender com grandes quantidades de dados. Um método popular de aprendizado profundo envolve Redes Neurais Convolucionais (CNNs). Essas redes são projetadas para reconhecer padrões em imagens, o que as torna úteis para analisar imagens médicas.
Um modelo típico de CNN tem diferentes camadas. Existem camadas que buscam padrões, uma função que ajuda nas decisões e uma camada de pooling que simplifica os dados. O objetivo é ajustar os pesos do modelo para fazer previsões precisas. Treinar essas redes envolve usar dados para ajudá-las a aprender a classificar imagens corretamente.
Neste estudo, o foco é examinar diferentes modelos de aprendizado profundo para ver como eles detectam problemas oculares com base em imagens de OCT. A pesquisa também analisa como o volume de dados usados para o treinamento e a complexidade dos modelos afetam os resultados.
Abordagem do Estudo
O estudo envolveu duas etapas principais. Primeiro, foi feita uma revisão para reunir todos os estudos existentes relacionados a aprendizado profundo e imagens de OCT. Isso ajudou a criar uma lista de trabalhos anteriores que usaram essas técnicas para classificar condições oculares. A segunda etapa comparou os modelos com melhor desempenho de estudos anteriores em relação à forma como lidaram com diferentes tipos de doenças oculares.
Coleta de Informações
Para coletar informações, os pesquisadores revisaram três bases de dados de periódicos. Eles se concentraram em estudos que usaram imagens de OCT e técnicas de aprendizado profundo. Uma busca específica foi feita para encontrar artigos relevantes. Depois de obter um grande número de registros, os pesquisadores filtraram os estudos para encontrar aqueles que correspondiam aos seus critérios.
O processo de revisão sistemática permitiu que os pesquisadores incluíssem estudos que usaram especificamente aprendizado profundo para classificar condições oculares. O objetivo era reunir uma lista abrangente de estudos que contribuíssem para a análise.
A revisão revelou um aumento significativo nos trabalhos publicados nessa área, com muitos estudos utilizando modelos de CNN pré-treinados para classificar doenças da retina. O conjunto de dados fornecido por Kermany e outros foi frequentemente utilizado, incluindo imagens para várias condições oculares.
Comparando Modelos
Para avaliar a eficácia de diferentes modelos, quatro modelos foram escolhidos para uma comparação aprofundada. Esses modelos incluíram Xception, ResNet-50, OpticNet e OctNET. Cada modelo foi pré-treinado em diferentes conjuntos de dados, seja especificamente para condições oculares ou em bancos de imagens maiores.
O conjunto de dados Kermany, amplamente reconhecido por seu papel no treinamento de modelos para classificação de patologias da retina, contém mais de 84.000 imagens categorizadas em normal, CNV, Drusens e EMD. Esse conjunto de dados é dividido em subconjuntos de treinamento, teste e validação.
Os pesquisadores testaram os modelos escolhidos usando tamanhos variados do conjunto de dados. Eles dividiram o conjunto de dados em subconjuntos menores, representando diferentes porcentagens do total, para ver como treinar em menores quantidades de dados afetava o desempenho.
Cada modelo foi treinado por um número definido de ciclos, conhecidos como épocas, e os pesquisadores usaram diferentes métodos de otimização para melhorar o desempenho. Ao comparar vários métodos de treinamento e arquiteturas de modelos, os pesquisadores buscaram encontrar a melhor abordagem para diagnosticar doenças da retina.
Métricas de Desempenho
Para medir o quão bem os modelos se saíram, várias métricas foram usadas. Uma ferramenta vital é a matriz de confusão, que ajuda a visualizar previsões verdadeiras e falsas. Além disso, métricas como Precisão, recall, precisão e Kappa de Cohen foram usadas para avaliar como os modelos identificaram diferentes categorias de condições oculares.
Os tempos de treinamento foram avaliados, pois desempenham um papel importante na determinação de aplicações práticas para esses modelos. Os resultados mostraram que modelos maiores e mais complexos exigiam mais tempo de treinamento. Contudo, modelos com menos parâmetros conseguiam resultados semelhantes mais rapidamente.
De forma geral, os resultados indicaram que certos modelos podem alcançar alta precisão mesmo quando treinados em conjuntos de dados menores. Uma descoberta chave foi que modelos podiam atingir desempenho ótimo com cerca de 10% do conjunto de dados completo. Isso desafia a suposição de que mais dados sempre levam a melhores resultados, sugerindo que a eficiência de um modelo pode, às vezes, superar o volume total de dados de treinamento.
Implicações e Uso Prático
As descobertas do estudo têm implicações significativas para o diagnóstico e gerenciamento de doenças oculares. Com altas taxas de precisão alcançadas usando esses modelos de aprendizado profundo, há potencial para implementar essas tecnologias em ambientes clínicos. Isso pode levar a diagnósticos mais rápidos e confiáveis para os pacientes.
A capacidade de alguns modelos de se saírem bem com conjuntos de dados menores significa que os recursos podem ser alocados de maneira mais eficaz. Clínicas e hospitais podem nem sempre ter acesso a grandes quantidades de dados de imagem médica. Portanto, saber que modelos eficazes ainda podem ter bom desempenho com dados limitados é promissor.
Além disso, entender os tempos de treinamento de diferentes modelos pode ajudar a informar como essas ferramentas são usadas na prática. Modelos que se atualizam rapidamente com novos dados podem ser particularmente valiosos em um ambiente clínico onde o diagnóstico em tempo hábil é crucial.
Conclusão
A ascensão do aprendizado profundo em imagens médicas, especialmente para doenças oculares, oferece uma oportunidade transformadora para melhorar o atendimento ao paciente. Esta pesquisa destaca a importância tanto da seleção de modelos quanto do volume de dados de treinamento no desenvolvimento de ferramentas de diagnóstico eficazes.
À medida que a tecnologia continua a avançar, a integração desses modelos em ambientes de saúde pode aprimorar significativamente a capacidade de detectar e gerenciar condições relacionadas à visão. As descobertas deste estudo contribuem com conhecimentos vitais para futuras pesquisas e aplicações práticas no diagnóstico de patologias da retina, beneficiando, em última análise, os resultados dos pacientes.
Título: Optimizing Ocular Pathology Classification with CNNs and OCT Imaging: A Systematic and Performance Review
Resumo: Vision loss due to chronic-degenerative diseases is a primary cause of blindness worldwide. Deep learning architectures utilizing optical coherence tomography images have proven effective for the early diagnosis of ocular pathologies. Nevertheless, most studies have emphasized the best outcomes using optimal hyperparameter combinations and extensive data availability. This focus has eclipsed the exploration of how model learning capacity varies with different data volumes. The current study evaluates the learning capabilities of efficient deep-learning classification models across various data amounts, aiming to determine the necessary data portion for effective clinical trial classifications of ocular pathologies. A comprehensive review was conducted, which included 295 papers that employed OCT images to classify one or more of the following retinal pathologies: Drusen, Diabetic Macular Edema, and Choroidal Neovascularization. Performance metrics and dataset details were extracted from these studies. Four Convolutional Neural Networks were selected and trained using three strategies: initializing with random weights, fine-tuning, and retraining only the classification layers. The resultant performance was compared based on training size and strategy to identify the optimal combination of model size, dataset size, and training approach. The findings revealed that, among the models trained with various strategies and data volumes, three achieved 99.9% accuracy, precision, recall, and F1 score. Two of these models were fine-tuned, and one used random weight initialization. Remarkably, two models reached 99% accuracy using only 10% of the original training dataset. Additionally, a model that was less than 10% the size of the others achieved 98.7% accuracy and an F1 score on the test set while requiring 100 times less computing time. This study is the first to assess the impact of training data size and model complexity on performance metrics across three scenarios: random weights initialization, fine-tuning, and retraining classification layers only, specifically utilizing optical coherence tomography images.
Autores: Ulises Olivares-Pinto, W. Hauri-Rosales, O. Perez, M. Garcia-Roa, E. Lopez-Star
Última atualização: 2024-06-19 00:00:00
Idioma: English
Fonte URL: https://www.medrxiv.org/content/10.1101/2024.06.18.24309070
Fonte PDF: https://www.medrxiv.org/content/10.1101/2024.06.18.24309070.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.