Avanços em Aprendizado Auto-Supervisionado para Modelos de Patologia
Explorando o impacto do aprendizado auto-supervisionado na pesquisa em patologia digital e em aplicações clínicas.
― 11 min ler
Índice
- O Papel da Inteligência Artificial na Medicina
- Desafios na Patologia
- Desenvolvimentos Recentes em SSL para Patologia
- Importância dos Conjuntos de Dados Clínicos
- Trabalho Atual
- Metodologia
- Tarefas Clínicas
- Tarefas de Detecção de Doenças
- Tarefas de Predição de Biomarcadores
- Modelos Fundacionais
- Resultados
- Desempenho na Detecção de Doenças
- Desempenho na Predição de Biomarcadores
- Requisitos de Recursos
- Conclusões
- Fonte original
- Ligações de referência
O Aprendizado Auto-Supervisionado (SSL) virou um método popular pra treinar modelos em patologia. Nos últimos anos, muitos modelos treinados com grandes conjuntos de dados clínicos foram disponibilizados publicamente. Essa nova disponibilidade pode ajudar muito a pesquisa científica em patologia digital e pode facilitar a aplicação das descobertas da pesquisa na prática clínica. Com vários modelos se tornando acessíveis, é crucial encontrar uma maneira de comparar o desempenho deles em tarefas médicas importantes entre diferentes doenças e órgãos.
Neste artigo, apresentamos uma coleção de conjuntos de dados de patologia ligados a resultados médicos significativos, como diagnósticos de câncer e vários biomarcadores. Esses conjuntos de dados vêm de dois centros médicos e são usados pra avaliar o quão bem os modelos públicos de patologia se saem. Nosso objetivo é fornecer orientações sobre as melhores práticas para treinar novos modelos e selecionar modelos pré-treinados adequados.
O Papel da Inteligência Artificial na Medicina
A Inteligência Artificial (IA) tá fazendo uma grande diferença na medicina. O deep learning, uma área da IA, acelerou a criação de modelos que conseguem prever resultados a partir de tipos complexos de dados como imagens e textos. Diferentes tipos de modelos, como redes neurais convolucionais (CNNs) e transformers de visão (ViTs), enfrentaram vários desafios relacionados à saúde usando aprendizado supervisionado, resultando em alto desempenho em várias tarefas.
Recentemente, a introdução do SSL mudou o cenário. Essa técnica permite que redes neurais profundas sejam treinadas com grandes quantidades de dados não rotulados, alcançando resultados próximos aos obtidos com aprendizado supervisionado. Modelos desenvolvidos por meio do SSL, frequentemente chamados de modelos fundacionais, podem ser adaptados a muitas tarefas diferentes com pouco treinamento adicional. Apesar do sucesso do SSL em outros campos, sua aplicação na medicina ainda está se desenvolvendo, principalmente por causa da disponibilidade limitada de conjuntos de dados médicos e dos recursos computacionais necessários.
Desafios na Patologia
No campo da patologia, a situação é ainda mais desafiadora por causa da adoção lenta da patologia digital. Imagens de lâminas inteiras (WSI) em patologia são muito maiores do que imagens típicas, o que traz várias dificuldades para análise e armazenamento. Uma maneira comum de gerenciar essas imagens grandes é dividi-las em pequenos blocos. Esses blocos podem ser analisados individualmente, resultando em uma representação mais manejável da lâmina inteira. No entanto, esse processo pode consumir muitos recursos computacionais, tornando difícil para os pesquisadores trabalharem com seus dados.
Muitos estudos em patologia computacional atualmente dependem de modelos pré-treinados que foram treinados usando imagens naturais, que podem não funcionar tão bem para imagens de patologia. Há uma necessidade clara de métodos que possibilitem o treinamento de modelos especificamente para dados de patologia. O SSL pode ajudar nesse contexto, já que pode ser aplicado a grandes conjuntos de dados sem precisar de rótulos.
Desenvolvimentos Recentes em SSL para Patologia
Muitos novos métodos de SSL surgiram, visando criar modelos de patologia de uso geral. Esforços notáveis incluem:
- Um modelo proposto por Wang et al. que combina SSL com diferentes arquiteturas, treinado em milhões de blocos de milhares de lâminas de vários locais e tipos de câncer.
- Filiot et al. trabalharam em uma estrutura que aplicou SSL a dados histológicos, treinando múltiplos modelos e avaliando seu desempenho em vários tipos de câncer.
- Chen et al. e Vorontsov et al. desenvolveram modelos treinados em conjuntos de dados extensos que visavam avaliar seu desempenho em várias tarefas.
- Outros esforços notáveis incluíram modelos que otimizaram conjuntos de dados de diversos laboratórios pra garantir diversidade e precisão.
Esses estudos mostram o crescente interesse no SSL como uma forma de melhorar as capacidades dos modelos de patologia.
Importância dos Conjuntos de Dados Clínicos
Embora o uso do SSL tenha promessas, ainda há desafios a serem enfrentados antes que esses modelos possam ser confiáveis em ambientes clínicos. Uma preocupação significativa é que os conjuntos de dados usados para treinar esses modelos costumam ser menores do que os encontrados em outros campos, como imagens naturais. Como cada lâmina de patologia pode gerar um grande número de blocos, é importante pensar além do número bruto de blocos e considerar a variedade de tecidos e doenças representados nos dados de treinamento.
Pesquisas anteriores em processamento de linguagem natural e imagens sugerem que conjuntos de dados maiores e modelos mais complexos geralmente levam a resultados melhores. Assim, incentivar a coleta de grandes conjuntos de dados de patologia deve ser uma prioridade daqui pra frente. Recentemente, houve um progresso significativo na digitalização de dados de patologia, mas o desempenho clínico dos modelos SSL ainda precisa de uma avaliação rigorosa em relação às tarefas clínicas do mundo real.
Trabalho Atual
Pra atender à necessidade de uma avaliação minuciosa, desenvolvemos um conjunto de dados de referência clínica pra comparar modelos públicos de patologia. Esse conjunto de dados incorpora dados clínicos coletados durante operações hospitalares regulares de duas instituições diferentes. Ele cobre três tipos principais de tarefas: Detecção de Doenças, predição de biomarcadores e predição de desfechos de tratamento, abordando uma ampla gama de doenças e locais anatômicos.
Nesta pesquisa, focamos em quão bem vários modelos pré-treinados se saem nessas tarefas. O conjunto de dados vai ser continuamente atualizado conforme novos modelos fundacionais forem lançados, fornecendo aos pesquisadores insights sobre o estado dos modelos fundacionais na patologia computacional.
Metodologia
No campo do SSL, o desempenho é frequentemente avaliado treinando um classificador simples em características extraídas de um codificador congelado. Em patologia, a abordagem típica é usar um agregador em nível de lâmina devido à complexidade dos dados. Escolhemos um modelo chamado Gated MIL Attention (GMA) pra essa tarefa.
Pra avaliar o desempenho do modelo, usamos um método chamado Validação Cruzada de Monte Carlo (MCCV). Esse processo envolveu dividir os dados em conjuntos de treinamento e validação várias vezes pra garantir resultados confiáveis. Cada modelo foi treinado por um número definido de épocas, usando técnicas de otimização estabelecidas pra alcançar o melhor desempenho.
Tarefas Clínicas
Pra avaliar a capacidade dos modelos de patologia, reunimos dados de várias tarefas clínicas em múltiplas instituições e scanners. Essas tarefas incluem detecção de doenças e predição de biomarcadores. Aqui estão alguns exemplos notáveis do nosso conjunto de dados:
Tarefas de Detecção de Doenças
- Detecção de Câncer de Mama: Coletamos lâminas contendo tanto câncer de mama quanto tecido mamário normal pra avaliar quão bem os modelos conseguem distinguir entre os dois.
- Detecção de Câncer Oral: Lâminas de vários tipos de tumores encontrados nos lábios e cavidade oral foram analisadas.
- Detecção de Câncer de Bexiga: Dados foram coletados de lâminas de tumores e normais relacionadas a diagnósticos de câncer de bexiga.
- Detecção de Câncer de Rim: Informações de lâminas de diferentes tipos de câncer de rim foram incluídas pra avaliar o desempenho do modelo.
- Detecção de Câncer de Tireoide: Assim como nos exemplos anteriores, coletamos lâminas com diagnósticos de câncer de tireoide pra testar as capacidades do modelo.
- Detecção de Câncer de Próstata: O conjunto de dados também inclui lâminas relevantes para casos de câncer de próstata.
- Detecção de Câncer Colorretal: Avaliamos lâminas que mostram tanto tecido normal quanto tumoral para cânceres colorretais.
- Detecção de Doença Inflamatória Intestinal (DII): O conjunto de dados inclui lâminas de pacientes com DII ativa em comparação com amostras normais.
Tarefas de Predição de Biomarcadores
- Predição de ER em Câncer de Mama: Coletamos lâminas com informações sobre receptor de estrogênio pra testar os modelos sobre seu poder preditivo.
- Predição de PR em Câncer de Mama: Semelhante à tarefa anterior, lâminas foram coletadas pra status de receptor de progesterona.
- Predições de HER2 e HRD: O conjunto de dados cobre vários biomarcadores relevantes para câncer de mama.
- Detecção de Mutação EGFR: Lâminas de pacientes com adenocarcinoma de pulmão foram selecionadas pra avaliar mutações ligadas à doença.
- Predições de Mutação TP53, KRAS e ALK: O conjunto de dados inclui lâminas relacionadas a várias mutações críticas em pacientes com câncer de pulmão.
Essas tarefas foram projetadas pra testar as capacidades do modelo em detectar doenças e prever marcadores biológicos-chave.
Modelos Fundacionais
Pra nossa pesquisa, focamos em comparar modelos fundacionais de visão disponíveis publicamente que foram treinados em grandes conjuntos de dados de patologia. Esses modelos incluem tipos bem conhecidos treinados com SSL, como diferentes versões de ViTs e CNNs. Além disso, incluímos modelos internos treinados em um Conjunto de Dados Clínico compilado durante operações hospitalares regulares.
O tamanho e a arquitetura desses modelos foram considerados, e buscamos encontrar correlações entre o desempenho do modelo e vários fatores durante o treinamento. Essa análise nos permitiria tirar insights com base em diferentes condições e garantir que os modelos se saíssem bem em ambientes clínicos.
Resultados
Desempenho na Detecção de Doenças
Nossos resultados indicam que os modelos se saíram consistentemente bem em todas as tarefas de detecção de doenças. Todos os modelos testados tiveram uma Área Sob a Curva (AUC) acima de 0.9, mostrando a eficácia deles. A comparação de modelos revelou que aqueles treinados com dados de patologia superaram consistentemente os treinados com imagens naturais.
Entre os modelos, os que utilizaram os algoritmos DINO e DINOv2 tiveram níveis de desempenho semelhantes, mostrando uma robustez na detecção de doenças. Curiosamente, o tamanho do modelo não pareceu ter uma correlação forte com o desempenho nessas tarefas, sugerindo que modelos menores poderiam ser tão capazes quanto os maiores.
Desempenho na Predição de Biomarcadores
O desempenho dos modelos nas tarefas de predição de biomarcadores foi mais variável do que na detecção de doenças. Essa variabilidade é esperada, já que prever biomarcadores pode nem sempre ser fácil. Os resultados mostraram que modelos com conjuntos de dados de treinamento que incluíam mais tipos de tecidos relevantes se saíram melhor em tarefas específicas.
Por exemplo, modelos treinados com a maioria de tecidos pulmonares mostraram maior precisão em tarefas relacionadas em comparação com modelos que tinham menos dados de treinamento relevantes. Isso sugere que a composição do conjunto de dados de treinamento pode influenciar significativamente como um modelo se sai em tarefas específicas.
Requisitos de Recursos
Um aspecto importante do treinamento de modelos fundacionais são os recursos necessários. À medida que examinamos os recursos computacionais necessários para treinar vários modelos, descobrimos que modelos maiores frequentemente exigiam mais poder computacional, mas isso nem sempre resultava em melhor desempenho.
Nossa análise indicou que modelos menores poderiam se sair tão bem em várias tarefas enquanto usavam menos recursos computacionais. Além disso, modelos com conjuntos de dados de treinamento eficientes mostraram um desempenho impressionante sem a necessidade de um poder de treinamento excessivo.
Conclusões
O aprendizado auto-supervisionado e os modelos fundacionais estão moldando o futuro da pesquisa médica, especialmente na área de patologia. Ao oferecer ferramentas poderosas para o desenvolvimento de modelos, os pesquisadores podem desenvolver previsões mais eficazes ao longo do tempo. Embora ainda haja obstáculos a serem superados, como garantir conjuntos de dados adequados e aplicabilidade clínica, o progresso que está sendo feito é encorajador.
Os benchmarks estabelecidos neste trabalho podem ser imensamente benéficos para pesquisadores tanto na criação de novos modelos quanto na aplicação de modelos existentes a desafios clínicos do mundo real. À medida que avançamos, é essencial focar em melhorar a eficácia dos métodos de pré-treinamento e tornar a tecnologia acessível a um público mais amplo.
Resumindo, nossa análise mostrou que:
- Modelos treinados com dados de patologia superaram aqueles treinados com imagens naturais.
- O tamanho do modelo por si só não determinou o sucesso em tarefas como detecção de doenças, mas pode ter um impacto em tarefas mais complexas de predição de biomarcadores.
- Conjuntos de dados de treinamento eficientes são cruciais para alcançar um bom desempenho e devem ser priorizados em trabalhos futuros.
Seguindo em frente, os esforços contínuos para melhorar as capacidades dos modelos e manter benchmarks atualizados contribuirão significativamente para o crescente campo da patologia computacional.
Título: A Clinical Benchmark of Public Self-Supervised Pathology Foundation Models
Resumo: The use of self-supervised learning (SSL) to train pathology foundation models has increased substantially in the past few years. Notably, several models trained on large quantities of clinical data have been made publicly available in recent months. This will significantly enhance scientific research in computational pathology and help bridge the gap between research and clinical deployment. With the increase in availability of public foundation models of different sizes, trained using different algorithms on different datasets, it becomes important to establish a benchmark to compare the performance of such models on a variety of clinically relevant tasks spanning multiple organs and diseases. In this work, we present a collection of pathology datasets comprising clinical slides associated with clinically relevant endpoints including cancer diagnoses and a variety of biomarkers generated during standard hospital operation from two medical centers. We leverage these datasets to systematically assess the performance of public pathology foundation models and provide insights into best practices for training new foundation models and selecting appropriate pretrained models.
Autores: Gabriele Campanella, Shengjia Chen, Ruchika Verma, Jennifer Zeng, Aryeh Stock, Matt Croken, Brandon Veremis, Abdulkadir Elmas, Kuan-lin Huang, Ricky Kwan, Jane Houldsworth, Adam J. Schoenfeld, Chad Vanderbilt
Última atualização: 2024-07-11 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.06508
Fonte PDF: https://arxiv.org/pdf/2407.06508
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.