Avanços na Análise de Imagem de Lâmina Inteira
Novos métodos melhoram a extração de azulejos para um diagnóstico de doenças melhor.
― 7 min ler
Índice
A imagem de lâmina inteira (WSI) é uma tecnologia que escaneia amostras de tecido e as transforma em imagens digitais super detalhadas. Esse método é fundamental para médicos que avaliam amostras de tecido para identificar doenças, incluindo câncer. As imagens digitais são de altíssima resolução e podem ser facilmente armazenadas, compartilhadas e analisadas por computadores. Essa tecnologia se tornou crucial em laboratórios médicos e está ganhando espaço para diagnósticos remotos e fins educacionais.
As WSIs são incrivelmente grandes, muitas vezes chegando a até 100.000 × 100.000 pixels quando vistas sob uma magnificação alta de 40 vezes. Com mais hospitais e laboratórios adotando essa tecnologia, a necessidade de maneiras eficazes de analisar essas imagens enormes está aumentando.
O Papel do Deep Learning na Análise de Imagens
Deep learning é um tipo de inteligência artificial que fez grandes avanços na análise de imagens. Ele aplica técnicas para reconhecer padrões nas imagens que eram menos eficazes em abordagens anteriores. No contexto das WSIs, o deep learning pode ajudar em várias áreas, como segmentação de tipos de tecido, previsão de mutações e classificação de lâminas.
Redes neurais artificiais (ANNs) e redes neurais convolucionais (CNNs) são tipos de modelos de deep learning usados para essas tarefas. Eles aprendem a partir de dados rotulados, o que significa que precisam de exemplos onde as características estão identificadas. Porém, criar esses exemplos rotulados pode ser complicado por causa da diversidade e do tamanho dos dados.
Gerenciar o tamanho das WSIs é um problema porque elas podem ser grandes demais para processar tudo de uma vez. Portanto, uma solução comum é dividir as imagens em seções menores ou "tiles". Esses tiles podem variar de tamanho, mas a maioria dos métodos usa tiles que têm cerca de 256 × 256 pixels. Analisando pedaços menores da imagem, os modelos de deep learning podem fazer previsões sobre as lâminas inteiras.
Estratégias de Tiling na Imagem de Lâmina Inteira
O grid tiling é uma das maneiras mais comuns de quebrar WSIs. Esse método divide a lâmina em uma série de tiles que não se sobrepõem, organizados em uma grade. Vários programas estão disponíveis para implementar o grid tiling, como Histolab e SliDL, que ajudam a extrair tiles de WSIs de maneira eficiente.
No entanto, os métodos tradicionais de tiling podem ter dificuldades em regiões com formas irregulares, como tumores. As áreas tumorais muitas vezes não se encaixam bem nos tiles da grade, levando a dificuldades em capturar dados de imagem relevantes. Alguns pesquisadores tentaram resolver esse problema com métodos que buscam extrair tiles das bordas de regiões anotadas. No entanto, esses métodos ainda podem deixar de fora partes importantes da imagem.
Desafios na Extração de Tiles
Os métodos atuais para extrair tiles de WSI costumam causar problemas, especialmente ao lidar com tumores. Tumores podem ter formas e tamanhos irregulares que não se encaixam bem no método de grid tiling. Como resultado, áreas importantes podem ser deixadas de fora, o que pode afetar o desempenho dos modelos de machine learning.
Por exemplo, usar o método dos oito pontos para selecionar tiles pode deixar de fora tiles que estão apenas parcialmente dentro dos limites anotados. Às vezes, extrair tiles menores pode ajudar, mas isso também não funciona sempre. Há também problemas com áreas em branco ou áreas que não contêm tecido útil, o que pode confundir os modelos de machine learning durante o treinamento.
Tiles indesejados podem introduzir informações irrelevantes, levando a um desempenho ruim dos algoritmos projetados para analisar as imagens.
Novas Abordagens para Extração de Tiles
Para enfrentar esses desafios, novas metodologias foram propostas para definir regras para selecionar tiles. Dois conceitos foram introduzidos: interseção sobre tile (IoT) e fundo sobre tile (BoT).
O IoT observa quanto de um tile se sobrepõe a uma região anotada. Isso ajuda a determinar se um tile vale a pena ser incluído na análise. Se um tile tiver uma boa quantidade de sobreposição com as regiões de interesse, é mais provável que seja útil para o treinamento.
O BoT foca em identificar tiles que contêm espaços em branco excessivos. Tiles com muitas áreas em branco ou conteúdo não informativo podem ser excluídos do conjunto de dados. Isso ajuda a garantir que apenas tiles com tecido relevante sejam considerados durante a análise. Tanto o IoT quanto o BoT fornecem critérios para escolher quais tiles manter e quais descartar.
Implementando os Novos Métodos
As novas abordagens podem ser combinadas em um algoritmo de extração de tiles conhecido como PathEX. Esse algoritmo utiliza tanto o IoT quanto o BoT para melhorar a extração de tiles ao redor das bordas de regiões anotadas, enquanto também exclui aquelas que são majoritariamente fundo.
Ao usar o PathEX, os pesquisadores podem ajustar os limites para IoT e BoT para encontrar as melhores configurações para seus estudos específicos. Essa flexibilidade permite ajustar o conjunto de dados para garantir que os tiles mais relevantes sejam selecionados para análise.
Testes e Avaliação
Nos testes, o algoritmo PathEX foi aplicado a uma variedade de conjuntos de dados para avaliar sua eficácia. Dois conjuntos de dados foram utilizados, um focando em amostras de linfonodos e outro em múltiplos cânceres de órgãos. A partir desses conjuntos de dados, o algoritmo foi usado para extrair tiles com critérios específicos.
Os resultados iniciais mostraram que os limites ideais para IoT e BoT levaram a um desempenho melhor do modelo. Limites mais altos reduziram o número de tiles barulhentos e ajudaram a garantir que o modelo fosse treinado com dados mais limpos. Isso leva a uma análise mais precisa e confiável, especialmente ao tomar decisões médicas cruciais com base nas descobertas.
Descobertas e Resultados
Os estudos descobriram que definir o valor do IoT entre 0,2 e 0,5, junto com configurações do BoT em torno de 0,2, produziu os melhores resultados. Embora limites mais altos reduzam o ruído, eles também podem levar ao overfitting, onde o modelo se sai bem nos dados de treinamento, mas mal nos novos dados.
Os resultados sugeriram que manter alguns tiles ruidosos pode ajudar a melhorar a robustez dos modelos. Isso acontece porque ter uma variedade maior de exemplos pode ajudar a ensinar o modelo a reconhecer padrões de forma mais eficaz.
Eliminando tiles que continham apenas áreas em branco, a qualidade geral do conjunto de dados melhorou, indicando ainda mais a importância de considerar tanto o IoT quanto o BoT ao preparar dados para modelos de deep learning.
Conclusão
O uso do PathEX e os conceitos de IoT e BoT oferecem avanços promissores na análise de imagens de lâmina inteira. Ao abordar os desafios associados aos métodos tradicionais de extração de tiles, a nova abordagem permite que pesquisadores criem um conjunto de dados mais preciso para o treinamento de modelos de machine learning.
Essas descobertas têm um grande potencial para melhorar a forma como os profissionais de saúde usam a patologia digital no diagnóstico e compreensão de doenças. À medida que a tecnologia avança, o objetivo é aumentar a precisão e eficiência no diagnóstico de condições como câncer, levando, em última instância, a melhores resultados para os pacientes.
Título: PathEX: Make Good Choice for Whole Slide Image Extraction
Resumo: BackgroundThe tile-based approach has been widely used for slide-level predictions in whole slide image (WSI) analysis. However, the irregular shapes and variable dimensions of tumor regions pose challenges for the process. To address this issue, we proposed PathEX, a framework that integrates intersection over tile (IoT) and background over tile (BoT) algorithms to extract tile images around boundaries of annotated regions while excluding the blank tile images within these regions. MethodsWe developed PathEX, which incorporated IoT and BoT into tile extraction, for training a classification model in CAM (239 WSIs) and PAIP (40 WSIs) datasets. By adjusting the IoT and BoT parameters, we generated eight training sets and corresponding models for each dataset. The performance of PathEX was assessed on the testing set comprising 13,076 tile images from 48 WSIs of CAM dataset and 6,391 tile images from 10 WSIs of PAIP dataset. ResultsPathEX could extract tile images around boundaries of annotated region differently by adjusting the IoT parameter, while exclusion of blank tile images within annotated regions achieved by setting the BoT parameter. As adjusting IoT from 0.1 to 1.0, and 1 - BoT from 0.0 to 0.5, we got 8 train sets. Experimentation revealed that set C demonstrates potential as the most optimal candidate. Nevertheless, a combination of IoT values ranging from 0.2 to 0.5 and 1-BoT values ranging from 0.2 to 0.5 also yielded favorable outcomes. ConclusionsIn this study, we proposed PathEX, a framework that integrates IoT and BoT algorithms for tile image extraction at the boundaries of annotated regions while excluding blank tiles within these regions. Researchers can conveniently set the thresholds for IoT and BoT to facilitate tile image extraction in their own studies. The insights gained from this research provide valuable guidance for tile image extraction in digital pathology applications.
Autores: Xinda Yang, R. Zhang, Y. Zhang, K. Chen
Última atualização: 2024-02-22 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2024.02.20.581147
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.02.20.581147.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.