A Necessidade de Consenso no Diagnóstico de Câncer de Pele
Padronizar critérios pode melhorar as ferramentas de IA para detectar carcinoma basocelular.
― 7 min ler
Índice
O câncer de pele é o tipo mais comum de câncer no mundo. Existem duas categorias principais de câncer de pele: melanoma e não-melanoma. Entre os tipos não-melanoma, o carcinoma basocelular (CBC) é o mais prevalente, representando mais de 70% dos casos. As diretrizes clínicas para diagnosticar o CBC são conhecidas, mas variam bastante entre diferentes médicos.
Recentemente, vários estudos começaram a investigar como a inteligência artificial (IA) pode ajudar no diagnóstico de problemas de pele. O aumento de bancos de dados públicos facilitou para os pesquisadores aplicarem técnicas de IA. No entanto, os critérios clínicos específicos usados para diagnosticar lesões cutâneas costumam não estar disponíveis, o que complica a utilidade dessas ferramentas de IA. Uma boa ferramenta de IA deve fornecer não apenas um diagnóstico, mas também explicar como chegou àquela conclusão com base nas características observadas.
A Necessidade de Consenso
Tem uma necessidade de uma abordagem padronizada para determinar as características chave do CBC. Diferentes médicos costumam discordar sobre essas características. Alguns estudos mostraram que há pouca concordância entre os Dermatologistas na identificação de padrões dermatoscópicos específicos, que são sinais visuais vistos através de uma lente especial que ajuda na exame da pele. Essa discordância mostra que precisamos de uma abordagem mais unificada ao treinar sistemas de IA.
Um jeito de conseguir consenso entre os médicos é reunir as opiniões deles e criar uma verdade de referência (GT) que represente um padrão confiável para treinar ferramentas de IA. Para garantir que essa GT seja precisa, ela deve vir de um grupo de dermatologistas e não de apenas um só. Assim, a gente consegue minimizar o impacto de preconceitos e erros individuais.
Visão Geral do Estudo
Em um estudo específico, quatro dermatologistas trabalharam juntos para avaliar 204 lesões suspeitas de CBC e analisar os critérios usados através da dermatoscopia. O objetivo era criar uma GT confiável que pudesse ser usada para treinar uma ferramenta de IA. Os dermatologistas analisaram 1.434 imagens coletadas de teledermatologia ao longo de alguns anos, e dessas, 204 imagens foram usadas para testar a ferramenta de IA. As imagens restantes foram usadas para treiná-la.
A performance da ferramenta de IA foi avaliada não só em relação à verdade de referência de um dermatologista, mas também contra um consenso alcançado através das opiniões combinadas dos quatro dermatologistas. Eles usaram vários testes estatísticos para medir as diferenças de desempenho.
Concordância Entre Dermatologistas
Os dermatologistas envolvidos no estudo mostraram alta concordância ao diagnosticar se uma lesão era CBC ou não. Quando os diagnósticos deles foram comparados com biópsias (que são testes feitos em amostras de tecido para confirmar um diagnóstico), houve uma correspondência forte. Especificamente, de 91 lesões biópsiadas, todas foram diagnosticadas como CBC pelos dermatologistas, com apenas três falsos positivos. Isso se traduz em um valor preditivo positivo de cerca de 96,7%.
No entanto, na hora de identificar padrões dermatoscópicos específicos, como rede de pigmento ou ulceração, a concordância entre os dermatologistas não foi tão forte. Por exemplo, alguns padrões eram difíceis de identificar consistentemente, mostrando que, enquanto pode haver concordância no diagnóstico geral, os detalhes às vezes podem variar bastante.
Verdade de Referência e Sua Importância
Uma GT confiável é essencial para treinar qualquer ferramenta de IA que visa ajudar no diagnóstico de CBC. A GT serve como a base sobre a qual a IA aprende a identificar padrões de CBC. Quando a GT é baseada em múltiplos especialistas, diminui as chances de viés e melhora a precisão da ferramenta.
Para criar a GT, o estudo comparou dois métodos: votação da maioria, que leva em conta a resposta mais comum entre os dermatologistas, e maximização da expectativa, que prevê a verdadeira probabilidade de cada característica com base nas opiniões de todos os avaliadores. Ambos os métodos resultaram em GTs similares, indicando que eles são eficazes em refletir um consenso entre os especialistas.
Performance da Ferramenta de IA
O estudo configurou uma ferramenta de IA projetada para identificar padrões de CBC com base em imagens dermatoscópicas. A IA foi treinada usando imagens rotuladas com a GT e depois testada para ver quão bem conseguia classificar novas imagens. Os pesquisadores descobriram que treinar a ferramenta de IA com a GT de consenso fornecida pelos quatro dermatologistas resultou em melhor desempenho em comparação a treinar apenas com os achados de um único dermatologista.
Quando o desempenho da IA foi testado com as 204 imagens, diferenças significativas apareceram dependendo de qual GT foi usada. A IA treinada com a GT de consenso teve um desempenho melhor na identificação de padrões específicos em comparação à IA treinada com a GT de um único avaliador.
Diferenças na Detecção de Padrões
Apesar da alta precisão geral da IA em classificar lesões como CBC ou não, desafios surgiram ao tentar detectar padrões específicos. As ferramentas de IA só concordaram nos padrões detectados 55,5% do tempo, mostrando variabilidade nos resultados. Alguns padrões, como ninhos ovóides azul-cinza e telangiectasia arborizante, tiveram taxas de discordância particularmente altas, mostrando que a escolha da GT afeta a capacidade da IA de detectar essas características com precisão.
Importância da Triagem
No contexto da saúde, é crucial gerenciar eficientemente a carga de trabalho dos serviços de dermatologia. Com o aumento da teledermatologia, muitos casos são submetidos para avaliação, e priorizar esses casos é essencial. Uma ferramenta de IA que consiga avaliar com precisão a gravidade das lesões cutâneas ajudaria os profissionais de saúde a lidar primeiro com os casos mais urgentes, garantindo tratamento em tempo para quem mais precisa.
Limitações do Estudo
Embora os resultados deste estudo forneçam insights valiosos, há limitações a considerar. Uma grande preocupação é o desequilíbrio no conjunto de dados usado para treinar e testar a ferramenta de IA. Alguns padrões de CBC foram representados com muito menos frequência do que outros. Por exemplo, apenas um punhado de imagens continha o padrão de roda de spoke, dificultando chegar a um consenso sobre isso.
Além disso, embora a IA tenha uma alta precisão de 96,7% ao classificar lesões como CBC ou não, seu desempenho caiu para 82% ao identificar padrões dermatoscópicos específicos. Essa discrepância sugere a necessidade de melhorias contínuas na capacidade da IA de explicar suas decisões de classificação.
Conclusão
Os achados enfatizam como é importante estabelecer um consenso sólido entre dermatologistas ao desenvolver ferramentas de IA para diagnosticar CBC. Uma GT bem definida, criada a partir de múltiplos especialistas, melhora significativamente o desempenho dos sistemas de IA na identificação e explicação dos padrões de câncer de pele.
Para construir ferramentas diagnósticas realmente úteis, precisamos focar em melhorar a precisão, garantindo que elas sejam apoiadas por um consenso detalhado entre os profissionais de saúde. Pesquisas contínuas são necessárias para refinar essas ferramentas ainda mais, abrindo caminho para um atendimento ao paciente mais confiável e eficaz.
Título: Concordance in basal cell carcinoma diagnosis. Building a proper ground truth to train Artificial Intelligence tools
Resumo: Background: The existence of different basal cell carcinoma (BCC) clinical criteria cannot be objectively validated. An adequate ground-truth is needed to train an artificial intelligence (AI) tool that explains the BCC diagnosis by providing its dermoscopic features. Objectives: To determine the consensus among dermatologists on dermoscopic criteria of 204 BCC. To analyze the performance of an AI tool when the ground-truth is inferred. Methods: A single center, diagnostic and prospective study was conducted to analyze the agreement in dermoscopic criteria by four dermatologists and then derive a reference standard. 1434 dermoscopic images have been used, that were taken by a primary health physician, sent via teledermatology, and diagnosed by a dermatologist. They were randomly selected from the teledermatology platform (2019-2021). 204 of them were tested with an AI tool; the remainder trained it. The performance of the AI tool trained using the ground-truth of one dermatologist versus the ground-truth statistically inferred from the consensus of four dermatologists was analyzed using McNemar's test and Hamming distance. Results: Dermatologists achieve perfect agreement in the diagnosis of BCC (Fleiss-Kappa=0.9079), and a high correlation with the biopsy (PPV=0.9670). However, there is low agreement in detecting some dermoscopic criteria. Statistical differences were found in the performance of the AI tool trained using the ground-truth of one dermatologist versus the ground-truth statistically inferred from the consensus of four dermatologists. Conclusions: Care should be taken when training an AI tool to determine the BCC patterns present in a lesion. Ground-truth should be established from multiple dermatologists.
Autores: Francisca Silva-Clavería, Carmen Serrano, Iván Matas, Amalia Serrano, Tomás Toledo-Pastrana, David Moreno-Ramírez, Begoña Acha
Última atualização: 2024-06-26 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2406.18240
Fonte PDF: https://arxiv.org/pdf/2406.18240
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.