Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Aprendizagem de máquinas

Abordando Efeitos de Lote em Histopatologia com Transporte Ótimo

Um novo método melhora a precisão do aprendizado de máquina em histopatologia em vários hospitais.

― 7 min ler


Transporte Óptimo emTransporte Óptimo emHistopatologiaaprendizado de máquina.diagnóstico de doenças usandoRevolucionando a precisão no
Índice

A histopatologia é super importante pra diagnosticar doenças, especialmente câncer. Nesse processo, os médicos analisam fatias finas de amostras de tecidos sob um microscópio pra identificar mudanças celulares. Mas esse método pode ser demorado e subjetivo, então estão começando a usar Aprendizado de Máquina pra automatizar a análise. O problema é que as técnicas de aprendizado de máquina enfrentam desafios por causa dos "Efeitos de Lote", que são variações causadas por diferenças na preparação ou no escaneamento dos slides. Essas variações dificultam que modelos treinados em dados de um hospital funcionem bem com dados de outro.

O Desafio dos Efeitos de Lote

O principal problema com os efeitos de lote é que eles podem mudar a aparência dos slides, o que confuse os modelos de aprendizado de máquina. Enquanto os patologistas humanos conseguem muitas vezes ignorar essas pequenas diferenças, as máquinas não conseguem. Isso resulta em uma precisão menor quando os modelos são aplicados em diferentes ambientes hospitalares. O objetivo é desenvolver modelos de aprendizado de máquina que consigam lidar melhor com essas variações.

Os pesquisadores sugeriram várias estratégias pra tornar os modelos de histopatologia mais robustos a esses efeitos de lote. Uma abordagem foca em aprender representações que não sejam influenciadas por essas variações, garantindo que os modelos só percebam as diferenças biológicas. Isso ajuda a criar modelos mais confiáveis em diferentes instituições.

Uma Nova Abordagem Usando Transporte Ótimo

Nesse contexto, apresentamos um método novo baseado em algo chamado transporte ótimo (OT). Esse método compara conjuntos de imagens pra ver se as diferenças podem ser gerenciadas. Em vez de olhar imagens individuais, essa abordagem analisa grupos de imagens e quantifica as diferenças em suas representações. Assim, conseguimos treinar melhor os modelos que funcionam eficientemente em vários hospitais.

Usando um conjunto de dados chamado Camelyon17, os pesquisadores descobriram que, enquanto muitos métodos de aprendizado de máquina conseguem se ajustar a diferenças globais de cor, apenas nosso método OT identifica consistentemente tipos de câncer que não foram incluídos durante o treinamento inicial.

Entendendo o Transporte Ótimo

Transporte ótimo é uma técnica matemática usada pra comparar e alinhar grupos de pontos de dados. Ela ajuda a identificar a melhor maneira de mover dados de uma distribuição pra outra, o que é útil em aprendizado de máquina. Nesse caso, queremos usar imagens de um hospital (a fonte) pra melhorar o desempenho do modelo em imagens de outro hospital (o alvo).

O objetivo dessa técnica é aproveitar os dados rotulados do domínio de origem pra treinar um modelo que classifique corretamente os dados não rotulados do domínio alvo. Isso é conhecido como Adaptação de Domínio não supervisionada, onde o modelo aprende não só com amostras individuais, mas também com as características gerais dos dados.

Implementando o Método

Pra colocar esse método em prática, os pesquisadores usaram um modelo de classificação pra distinguir entre tecido tumoral e normal. O modelo é treinado usando imagens de um hospital enquanto compara simultaneamente características de outro hospital. Calculando a distância de transporte ótimo entre os dois conjuntos de imagens, o modelo consegue ignorar os efeitos de lote e focar mais nas diferenças biológicas significativas.

O processo de treinamento combina uma função de perda padrão com a perda OT, o que ajuda o modelo a generalizar melhor ao promover um aprendizado menos afetado por variações de lote. Assim, quando o modelo é testado em imagens de uma instituição completamente nova, ele ainda consegue fazer classificações precisas sem precisar ser retrainado.

Experimentando com o Conjunto de Dados Camelyon17-WILDS

Nesse estudo, o conjunto de dados Camelyon17-WILDS foi usado como referência. Esse conjunto tem milhares de imagens anotadas de pacientes mostrando amostras de tecidos retirados de linfonodos. Os cientistas dividiram essas imagens em conjuntos de treinamento, validação e teste de várias instituições pra avaliar como bem os modelos poderiam se adaptar a dados de hospitais que não fizeram parte do processo de treinamento.

Os pesquisadores treinaram seu modelo usando imagens rotuladas de três hospitais e testaram em dados de um quarto hospital. Eles queriam criar um modelo que pudesse generalizar bem pra um conjunto de teste que veio de uma instituição diferente, que não foi usada durante o treinamento.

Resultados do Método

Os resultados do uso da abordagem OT foram promissores. Não só melhorou a classificação no conjunto de validação, mas também mostrou uma vantagem significativa quando testado em imagens de um hospital que não tinha sido visto antes. Comparado a métodos padrão como a Rede Neural Adaptativa de Domínio (DANN), o método OT teve um desempenho melhor.

DANN é um método anterior que também tenta alinhar dados pra melhorar a classificação. Contudo, ele analisa imagens individualmente, o que pode ignorar algumas das diferenças mais sutis nos dados. A abordagem OT, por outro lado, considera grupos de imagens, tornando-se mais eficaz em lidar com os efeitos de lote.

Insights sobre o Desempenho do Modelo

Os pesquisadores também queriam entender por que o método OT teve um desempenho melhor. Pra isso, eles compararam visualmente as características das imagens de diferentes conjuntos - treinamento, validação e teste. Eles notaram que enquanto o DANN teve dificuldades com certas imagens no conjunto de teste, o método OT manteve uma alta precisão. Isso sugere que o OT é mais flexível e melhor em se adaptar às variações nos dados.

Além disso, a pesquisa destacou que muitas imagens de teste continham características que não estavam bem representadas no conjunto de dados de treinamento. Em casos onde o método DANN encontrou dificuldades, o método OT conseguiu classificar essas imagens corretamente. Isso indica que o OT pode capturar uma gama mais ampla de características, mesmo quando há dados de treinamento limitados.

Implicações Mais Amplas

O sucesso do método OT em se adaptar a novos dados tem implicações pro futuro da histopatologia e do aprendizado de máquina. Ao oferecer uma maneira confiável de lidar com os efeitos de lote, esse método pode melhorar a implementação de modelos de aprendizado de máquina em ambientes clínicos, aumentando a precisão diagnóstica em vários hospitais.

Os pesquisadores também apontaram que existem várias outras estratégias visando corrigir efeitos de lote, e combinar o OT com esses métodos poderia levar a resultados ainda melhores. Por exemplo, técnicas existentes que focam em variações de cor e intensidade podem ser combinadas com a abordagem OT pra melhorar ainda mais o desempenho do modelo.

Conclusão

Em resumo, o uso de transporte ótimo pra enfrentar os desafios na histopatologia oferece uma direção promissora pra melhorar modelos de aprendizado de máquina. Esse método ajuda a garantir que os modelos treinados em um conjunto de dados possam ser aplicados efetivamente em outro sem necessidade de retrain extensivo. Pesquisas futuras podem aprofundar a combinação dessa abordagem com outras técnicas avançadas e explorar sua aplicação em conjuntos de dados maiores e mais complexos. Com isso, o campo da patologia digital pode ver avanços significativos em como as doenças são diagnosticadas e compreendidas, levando a melhores resultados para os pacientes.

Fonte original

Título: Domain adaptation using optimal transport for invariant learning using histopathology datasets

Resumo: Histopathology is critical for the diagnosis of many diseases, including cancer. These protocols typically require pathologists to manually evaluate slides under a microscope, which is time-consuming and subjective, leading to interest in machine learning to automate analysis. However, computational techniques are limited by batch effects, where technical factors like differences in preparation protocol or scanners can alter the appearance of slides, causing models trained on one institution to fail when generalizing to others. Here, we propose a domain adaptation method that improves the generalization of histopathological models to data from unseen institutions, without the need for labels or retraining in these new settings. Our approach introduces an optimal transport (OT) loss, that extends adversarial methods that penalize models if images from different institutions can be distinguished in their representation space. Unlike previous methods, which operate on single samples, our loss accounts for distributional differences between batches of images. We show that on the Camelyon17 dataset, while both methods can adapt to global differences in color distribution, only our OT loss can reliably classify a cancer phenotype unseen during training. Together, our results suggest that OT improves generalization on rare but critical phenotypes that may only make up a small fraction of the total tiles and variation in a slide.

Autores: Kianoush Falahkheirkhah, Alex Lu, David Alvarez-Melis, Grace Huynh

Última atualização: 2023-03-03 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2303.02241

Fonte PDF: https://arxiv.org/pdf/2303.02241

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes