Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Processamento de Imagem e Vídeo# Visão computacional e reconhecimento de padrões# Aprendizagem de máquinas

Melhorando a Imagem Médica 3D com Dados de Vídeo

O pré-treinamento em vídeo dá um up na performance de modelos 3D em tarefas de imagem médica.

― 7 min ler


Dados de vídeo melhoram aDados de vídeo melhoram aimagem 3D.médica.precisão do modelo em tarefas de imagemO pré-treinamento em vídeo melhora a
Índice

A imagem médica tem um papel super importante no diagnóstico e tratamento de várias condições. Uma das formas mais comuns de imagem são as Tomografias computadorizadas (TC). Com milhões de exames realizados a cada ano, a necessidade de uma interpretação eficiente e precisa dessas imagens nunca foi tão crucial. Nos últimos anos, técnicas de aprendizado profundo foram desenvolvidas para ajudar os radiologistas a interpretar as TC, o que pode levar a melhores resultados para os pacientes. Mas, treinar esses modelos requer uma grande quantidade de dados rotulados, o que pode ser demorado e caro de conseguir.

O Desafio dos Dados Limitados

No campo da imagem médica, tarefas bidimensionais (2D), como a análise de raios-X, se beneficiaram de pré-treinamento em grandes conjuntos de dados como o ImageNet. O pré-treinamento envolve treinar um modelo em um grande conjunto de dados geral antes de ajustá-lo em um conjunto menor e específico para a tarefa. Essa abordagem melhorou o desempenho dos modelos em tarefas médicas 2D. Porém, tarefas tridimensionais (3D), como a análise de TC, costumam ter muito menos dados disponíveis, tornando a aplicação direta de modelos 2D pré-treinados menos eficaz.

Embora alguns métodos adaptem modelos 2D para tarefas 3D, eles geralmente não aproveitam totalmente as informações únicas que as TC oferecem. Portanto, os pesquisadores estão em busca de melhores estratégias para melhorar o desempenho dos modelos médicos 3D.

O Potencial do Pré-Treinamento em Vídeo

Uma abordagem inovadora é usar dados de vídeo para pré-treinamento de modelos 3D. Ao aproveitar grandes conjuntos de dados de vídeo, os modelos podem aprender a identificar padrões e características nos dados que são relevantes para tarefas de imagem médica. Há evidências de que o pré-treinamento em vídeo pode melhorar o desempenho do modelo em resultados médicos específicos, mas ainda não foi amplamente estudado em vários modelos e tarefas.

Na nossa pesquisa, buscamos determinar se o pré-treinamento com dados de vídeo naturais poderia melhorar consistentemente o desempenho de modelos 3D em tarefas de TC torácica, mesmo quando os conjuntos de dados rotulados são pequenos.

Visão Geral da Metodologia

Para enfrentar esse desafio, usamos múltiplos modelos 3D e exploramos várias configurações de pré-treinamento. Comparamos três tipos diferentes de pré-treinamento: pré-treinamento em vídeo usando um grande conjunto de dados de vídeo, pré-treinamento no domínio usando conjuntos de dados de TC menores, e uma combinação dos dois. Testamos nossos modelos em dois conjuntos de dados públicos bem estabelecidos relacionados a TC torácica: um focado na detecção de Embolia Pulmonar (EP) e o outro na detecção de nódulos pulmonares.

Conjuntos de Dados de Treinamento e Validação

Para nosso estudo, usamos conjuntos de dados rotulados com um número limitado de exames para ambas as tarefas. O conjunto de dados usado para a detecção de EP incluiu mais de 7.000 estudos, que dividimos cuidadosamente em conjuntos de treinamento, validação e teste. Para a detecção de nódulos pulmonares, usamos um conjunto de dados com mais de 1.000 estudos, com uma divisão similar para treinamento, validação e teste.

Para avaliar os benefícios do pré-treinamento em diferentes condições, examinamos como os modelos se saíram em conjuntos de dados completos em comparação com conjuntos de dados menores. Preparamos os conjuntos de dados para garantir que oferecessem uma avaliação justa das habilidades dos modelos.

Universo dos Modelos

Nosso estudo se concentrou em uma mistura de modelos 3D desenvolvidos após 2018, conhecidos por sua eficácia em processar dados espaço-temporais. Isso incluiu modelos projetados especificamente para reconhecimento de ações em vídeos, assim como modelos voltados para tarefas de imagem médica. Incluímos uma seleção de modelos 2D estabelecidos em nossas comparações.

Descobertas sobre o Pré-Treinamento em Vídeo

Constatamos que o pré-treinamento em vídeo teve um impacto positivo significativo no desempenho dos modelos 3D em múltiplas tarefas. Por exemplo, os modelos pré-treinados em dados de vídeo mostraram um desempenho melhor na detecção de embolia pulmonar em comparação com aqueles que só receberam pré-treinamento em TC. Essa tendência se manteve, independente do tamanho dos conjuntos de dados usados para ajuste fino.

Além disso, o desempenho médio dos nossos modelos 3D superou o dos modelos 2D tradicionais quando pré-treinados em dados de vídeo. Isso foi especialmente evidente em casos onde apenas uma pequena parte dos dados de treinamento estava disponível.

Abordagem de Pré-Treinamento Sequencial

Também examinamos os efeitos do pré-treinamento sequencial, onde os modelos foram primeiro pré-treinados em vídeo e depois ajustados em dados de TC. Os resultados indicaram que essa abordagem em duas etapas teve um desempenho superior em comparação com confiar apenas no pré-treinamento em TC.

Em nossas avaliações, os modelos que passaram pelo pré-treinamento em vídeo primeiro consistentemente superaram aqueles com apenas pré-treinamento em TC. Isso sugere que a informação obtida de um conjunto de dados de vídeo maior pode melhorar a capacidade de um modelo de aprender com conjuntos de dados menores e específicos do domínio.

Comparação com Pré-Treinamento em TC

Ao comparar os resultados do pré-treinamento em vídeo com os do pré-treinamento em TC, os modelos pré-treinados em vídeo mostraram melhorias notáveis em precisão. Isso foi particularmente evidente em tarefas onde os dados de treinamento eram limitados. Nossas descobertas indicam que utilizar conjuntos de dados de vídeo em grande escala pode oferecer vantagens significativas sobre conjuntos de dados de TC em pequena escala, tornando o pré-treinamento em vídeo uma opção viável para melhorar o desempenho dos modelos em tarefas médicas 3D.

Implicações para a Prática Clínica

Nossa pesquisa destaca o potencial do pré-treinamento em vídeo para melhorar o desempenho dos modelos em ambientes clínicos onde os dados muitas vezes são escassos. Ao aproveitar grandes conjuntos de dados públicos de vídeo, podemos desenvolver modelos mais eficazes para interpretar TC, ajudando assim os radiologistas a fazer diagnósticos precisos.

Além disso, o pré-treinamento em vídeo é menos propenso a levantar preocupações sobre privacidade em comparação com conjuntos de dados médicos tradicionais, já que não contém informações sensíveis de pacientes. Isso torna os dados de vídeo um recurso valioso para treinar modelos que atuam em ambientes clínicos.

Conclusão

Em resumo, mostramos que o pré-treinamento em vídeo melhora significativamente o desempenho dos modelos 3D em tarefas de TC torácica. Essa abordagem supera os métodos convencionais que se baseiam apenas em conjuntos de dados pequenos e específicos do domínio. À medida que a demanda por melhores imagens médicas continua a crescer, os achados da nossa pesquisa podem desempenhar um papel crucial na formação do trabalho futuro nesse campo.

Ao promover o uso de grandes conjuntos de dados de vídeo para treinamento, esperamos facilitar avanços nas tecnologias de imagem médica 3D e, em última análise, melhorar o cuidado com os pacientes.

Fonte original

Título: Video Pretraining Advances 3D Deep Learning on Chest CT Tasks

Resumo: Pretraining on large natural image classification datasets such as ImageNet has aided model development on data-scarce 2D medical tasks. 3D medical tasks often have much less data than 2D medical tasks, prompting practitioners to rely on pretrained 2D models to featurize slices. However, these 2D models have been surpassed by 3D models on 3D computer vision benchmarks since they do not natively leverage cross-sectional or temporal information. In this study, we explore whether natural video pretraining for 3D models can enable higher performance on smaller datasets for 3D medical tasks. We demonstrate video pretraining improves the average performance of seven 3D models on two chest CT datasets, regardless of finetuning dataset size, and that video pretraining allows 3D models to outperform 2D baselines. Lastly, we observe that pretraining on the large-scale out-of-domain Kinetics dataset improves performance more than pretraining on a typically-sized in-domain CT dataset. Our results show consistent benefits of video pretraining across a wide array of architectures, tasks, and training dataset sizes, supporting a shift from small-scale in-domain pretraining to large-scale out-of-domain pretraining for 3D medical tasks. Our code is available at: https://github.com/rajpurkarlab/chest-ct-pretraining

Autores: Alexander Ke, Shih-Cheng Huang, Chloe P O'Connell, Michal Klimont, Serena Yeung, Pranav Rajpurkar

Última atualização: 2023-04-02 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2304.00546

Fonte PDF: https://arxiv.org/pdf/2304.00546

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes