Simple Science

Ciência de ponta explicada de forma simples

# Ciências da saúde# Informatica sanitaria

Avanços em IA para Triagem de Câncer Cervical

Nova ferramenta de IA mostra potencial no diagnóstico e precisão de triagem do câncer de colo de útero.

― 8 min ler


Avanços da IA na TriagemAvanços da IA na Triagemdo Câncer de Colo deÚterocervical.e os métodos de triagem do câncerFerramenta de IA melhora o diagnóstico
Índice

A inteligência artificial (IA) tá se tornando bem comum na saúde, especialmente pra diagnosticar doenças. Nos últimos anos, os sistemas de IA mostraram que conseguem se sair quase tão bem quanto os médicos em algumas tarefas. Mas, levar esses modelos de IA dos laboratórios pra vida real na saúde tá sendo devagar. Pra IA ser útil nas clínicas, ela precisa ser confiável, acessível e se integrar bem nas rotinas dos hospitais. Os resultados têm que ser relevantes pros médicos e se encaixar nas tarefas médicas que eles precisam fazer.

Muitos modelos de IA existentes enfrentam desafios significativos. Muitas vezes, esses modelos são feitos de um jeito que limita a eficácia deles em aplicações do mundo real. Um problema grande é que os modelos podem ter dificuldade em dar resultados consistentes quando aplicados a diferentes populações de pacientes ou em várias situações.

A Importância da Robustez do Modelo

Quando a gente fala de IA na saúde, a robustez do modelo é crucial. Esse termo refere-se a duas qualidades essenciais:

  1. Repetibilidade: Isso significa que o modelo de IA deve dar quase os mesmos resultados para o mesmo paciente nas mesmas condições.
  2. Generalizabilidade: Essa é a capacidade do modelo de funcionar bem em diferentes situações ou com dados que são diferentes dos que ele foi treinado.

Infelizmente, muitos modelos de IA só funcionam bem com os dados específicos com os quais foram treinados e não se adaptam bem a novos tipos de dados. Existem duas razões principais pra isso:

  1. Os dados de treino podem não representar diversidade suficiente - como diferentes populações ou dispositivos usados pra coletar os dados.
  2. Pode faltar técnicas específicas pra ajudar o modelo a se adaptar a novos dados.

Pra avaliar se um modelo tá muito atrelado aos dados de treino dele, ele precisa ser testado com um conjunto de dados diferente que ofereça características variadas. Isso é essencial ao considerar o uso de modelos de IA em cenários de saúde que envolvem populações e ambientes de pacientes diversos.

Câncer Cervical e Seus Desafios

O câncer cervical é um problema de saúde significativo no mundo todo. É a quarta causa mais comum de mortes relacionadas ao câncer, com a maioria dos casos ocorrendo em países de baixa renda. Apesar de sabermos que o papilomavírus humano (HPV) causa o câncer cervical, controlar a doença tem sido difícil, especialmente em áreas com poucos recursos.

Pra prevenir o câncer cervical, a vacinação contra o HPV é a principal estratégia. Pra quem já tá em risco, a Organização Mundial da Saúde recomenda a Triagem para HPV. Em lugares de baixa renda, um método comum usado pra triagem é a inspeção visual com ácido acético (VIA). Mas, estudos mostraram que as avaliações visuais feitas por especialistas podem ser muitas vezes imprecisas e inconsistentes. Isso indica que há uma necessidade de métodos mais precisos e acessíveis pra triagem de pacientes com câncer cervical.

Desenvolvimento da Avaliação Visual Automatizada (AVE)

Pra atender a necessidade de melhores ferramentas de triagem, pesquisadores desenvolveram um modelo chamado Avaliação Visual Automatizada (AVE). Esse modelo consegue classificar imagens do colo do útero em três categorias: "normal," "indeterminado" (às vezes chamado de "zona cinza"), e "pré-câncer/câncer" (juntos como "pré-câncer+").

Pra criar esse modelo, foi adotada uma abordagem abrangente usando um grande conjunto de dados que incluía imagens de diferentes instituições, dispositivos e populações. Esse conjunto de dados diverso é crítico pra garantir que o modelo de IA funcione efetivamente em várias situações.

Avaliando o Desempenho do AVE

Nesse trabalho, a gente foca em como o modelo AVE consegue se adaptar quando aplicado a diferentes conjuntos de dados externos. Estamos particularmente interessados em dois aspectos: repetibilidade e desempenho de Classificação. Testar essas características é essencial pra garantir que o modelo funcione corretamente em novos lugares e com diferentes dispositivos.

A gente olhou especificamente como as diferenças de dispositivos por meio de conjuntos de dados externos afetam o desempenho do AVE. Por exemplo, tentamos entender como o modelo conseguia classificar imagens tiradas com um novo smartphone em comparação com aquelas que ele viu durante o treinamento.

Principais Descobertas

Nosso trabalho levou a duas descobertas importantes:

  1. Dispositivo vs. Geografia: O desempenho do modelo é mais afetado pelo tipo de dispositivo usado do que por diferenças geográficas. Isso significa que o modelo AVE consegue se sair bem em identificar condições quando usa um dispositivo que já encontrou antes em comparação a um dispositivo totalmente novo.

  2. Benefícios do Re-treinamento: O desempenho do modelo AVE pode melhorar incluindo imagens de novos dispositivos durante o processo de re-treinamento. Esse re-treinamento pode aprimorar a capacidade do modelo de fornecer melhores classificações, mas sempre até um certo limite.

  3. Repetibilidade: O modelo AVE consistentemente produz previsões confiáveis, independentemente do conjunto de dados usado pra teste. Essa repetibilidade é crucial pra garantir que os médicos possam confiar nas descobertas do modelo.

Materiais e Métodos

Na exploração das capacidades do AVE, pegamos trabalhos anteriores onde o modelo inicial foi construído usando um conjunto de dados diverso chamado "SEED." Esse conjunto de dados incluía imagens coletadas de várias instituições e dispositivos.

Depois, testamos o modelo AVE em um novo conjunto de dados chamado "EXT," que consistia em imagens capturadas com um smartphone Samsung Galaxy J8. As imagens foram coletadas de vários países classificados como de baixa e média renda pelo Banco Mundial.

Antes de usar essas imagens em nossos testes, primeiro as processamos pra garantir que atendessem aos padrões necessários pra análise.

Analisando os Dados

Pra analisar os dados de maneira eficaz, olhamos pra vários fatores:

  1. Análise de Portabilidade: Examinamos o quão bem o modelo poderia se adaptar a diferentes dispositivos e configurações geográficas. Isso exigiu uma análise detalhada de como o desempenho de classificação variava por dispositivo e localização.

  2. Testando o Modelo: Fizemos vários testes pra medir como o modelo AVE se saiu tanto nos conjuntos de dados SEED quanto EXT. Essas avaliações ajudaram a entender onde o modelo se destaca e onde pode precisar de melhorias.

Resultados da Análise de Portabilidade

Nossa análise revelou que o desempenho do modelo AVE foi mais afetado pelas diferenças nos dispositivos de imagem do que pela variação geográfica. Quando o modelo foi testado em imagens do mesmo dispositivo usado no treinamento, ele se saiu muito melhor do que quando testado em imagens de um dispositivo diferente.

Embora o modelo tenha enfrentado dificuldades inicialmente em dispositivos diferentes, descobrimos que re-treiná-lo usando imagens de novos dispositivos poderia melhorar significativamente seu desempenho. Ao adicionar gradualmente dados do conjunto de dados externo ao conjunto de treinamento, vimos melhorias em como o modelo conseguia classificar as imagens.

Repetibilidade e Desempenho de Classificação

Além de examinar a portabilidade, focamos na repetibilidade das previsões do modelo AVE. A consistência nos resultados é vital pra qualquer ferramenta de diagnóstico. Descobrimos que nosso modelo produziu resultados estáveis quando testamos várias vezes em diferentes imagens do mesmo indivíduo.

Também avaliamos quão precisamente o modelo classificou as imagens em suas respectivas categorias. O modelo AVE mostrou grande potencial em diferenciar entre as categorias "normal," "indeterminado," e "pré-câncer+".

Conclusão

Esse trabalho demonstra a importância de desenvolver sistemas de IA confiáveis na saúde. O modelo AVE mostra que é possível adaptar ferramentas de IA para uso clínico, mesmo quando aplicadas a diferentes dispositivos e populações. Ao garantir que a IA pode fornecer resultados consistentes e classificar condições de forma eficaz, essas ferramentas podem ajudar os profissionais de saúde a tomar decisões informadas.

À medida que avançamos, é crucial continuar explorando maneiras de otimizar esses modelos para vários ambientes e populações. O trabalho futuro vai focar em melhorar o desempenho do AVE em diferentes dispositivos e aumentar sua implantação em configurações clínicas. Fazendo isso, podemos ajudar a garantir que a IA possa fazer um impacto positivo na saúde e melhorar os resultados para os pacientes no mundo todo.

Fonte original

Título: Assessing generalizability of an AI-based visual test for cervical cancer screening

Resumo: A number of challenges hinder artificial intelligence (AI) models from effective clinical translation. Foremost among these challenges are: (1) reproducibility or repeatability, which is defined as the ability of a model to make consistent predictions on repeat images from the same patient taken under identical conditions; (2) the presence of clinical uncertainty or the equivocal nature of certain pathologies, which needs to be acknowledged in order to effectively, accurately and meaningfully separate true normal from true disease cases; and (3) lack of portability or generalizability, which leads AI model performance to differ across axes of data heterogeneity. We recently investigated the development of an AI pipeline on digital images of the cervix, utilizing a multi-heterogeneous dataset ("SEED") of 9,462 women (17,013 images) and a multi-stage model selection and optimization approach, to generate a diagnostic classifier able to classify images of the cervix into "normal", "indeterminate" and "precancer/cancer" (denoted as "precancer+") categories. In this work, we investigated the performance of this multiclass classifier on external data ("EXT") not utilized in training and internal validation, to assess the portability of the classifier when moving to new settings. We assessed both the repeatability and classification performance of our classifier across the two axes of heterogeneity present in our dataset: image capture device and geography, utilizing both out-of-the-box inference and retraining with "EXT". Our results indicate strong repeatability of our multiclass model utilizing Monte-Carlo (MC) dropout, which carries over well to "EXT" (95% limit of agreement range = 0.2 - 0.4) even in the absence of retraining, as well as strong classification performance of our model on "EXT" that is achieved with retraining (% extreme misclassifications = 4.0% for n = 26 "EXT" individuals added to "SEED" in a 2n normal : 2n indeterminate : n precancer+ ratio), and incremental improvement of performance following retraining with images from additional individuals. We additionally find that device-level heterogeneity affects our model performance more than geography-level heterogeneity. Our work supports both (1) the development of comprehensively designed AI pipelines, with design strategies incorporating multiclass ground truth and MC dropout, on multi-heterogeneous data that are specifically optimized to improve repeatability, accuracy, and risk stratification; and (2) the need for optimized retraining approaches that address data heterogeneity (e.g., when moving to a new device) to facilitate effective use of AI models in new settings. AUTHOR SUMMARYArtificial intelligence (AI) model robustness has emerged as a pressing issue, particularly in medicine, where model deployment requires rigorous standards of approval. In the context of this work, model robustness refers to both the reproducibility of model predictions across repeat images, as well as the portability of model performance to external data. Real world clinical data is often heterogeneous across multiple axes, with distribution shifts in one or more of these axes often being the norm. Current deep learning (DL) models for cervical cancer and in other domains exhibit poor repeatability and overfitting, and frequently fail when evaluated on external data. As recently as March 2023, the FDA issued a draft guidance on effective implementation of AI/DL models, proposing the need for adapting models to data distribution shifts. To surmount known concerns, we conducted a thorough investigation of the generalizability of a deep learning model for cervical cancer screening, utilizing the distribution shifts present in our large, multi-heterogenous dataset. We highlight optimized strategies to adapt an AI-based clinical test, which in our case was a cervical cancer screening triage test, to external data from a new setting. Given the severe clinical burden of cervical cancer, and the fact that existing screening approaches, such as visual inspection with acetic acid (VIA), are unreliable, inaccurate, and invasive, there is a critical need for an automated, AI-based pipeline that can more consistently evaluate cervical lesions in a minimally invasive fashion. Our work represents one of the first efforts at generating and externally validating a cervical cancer diagnostic classifier that is reliable, consistent, accurate, and clinically translatable, in order to triage women into appropriate risk categories.

Autores: Syed Rakin Ahmed, D. Egemen, B. Befano, A. C. Rodriguez, J. Jeronimo, K. Desai, C. Teran, K. Alfaro, J. Fokom-Domgue, K. Charoenkwan, C. Mungo, R. Luckett, R. Saidu, T. Raiol, A. Ribeiro, J. C. Gage, S. de Sanjose, J. Kalpathy-Cramer, M. Schiffman

Última atualização: 2023-09-27 00:00:00

Idioma: English

Fonte URL: https://www.medrxiv.org/content/10.1101/2023.09.26.23295263

Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.09.26.23295263.full.pdf

Licença: https://creativecommons.org/publicdomain/zero/1.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes