Avaliação da IA na Saúde: Lidando com a Incerteza
Este artigo analisa como avaliar modelos de IA na saúde levando em conta a incerteza no diagnóstico.
― 8 min ler
Índice
Sistemas de IA na saúde, especialmente os usados para diagnóstico, precisam ser testados direitinho antes de serem usados. Esses testes geralmente comparam as previsões da IA com uma verdade conhecida, que se considera correta e constante. Mas, nem sempre é assim, especialmente na saúde, onde a situação real pode ser confusa. Ignorar essa incerteza pode fazer a IA funcionar mal na vida real.
Neste artigo, vamos discutir como avaliar modelos de IA na saúde levando em conta a incerteza no que chamamos de "verdade fundamental." Verdade fundamental se refere à condição real que precisa ser identificada, mas na saúde, essa condição pode não estar sempre claramente definida. A incerteza pode vir de duas fontes principais:
Incerteza de Anotação: Isso surge da dificuldade em rotular os dados de forma precisa. Mesmo profissionais treinados podem errar, e as opiniões deles podem diferir.
Incerteza Inerente: Isso está relacionado aos limites das informações disponíveis. Por exemplo, um diagnóstico baseado em uma única imagem pode não dar detalhes suficientes para uma conclusão clara.
Nas avaliações padrão, a maioria das técnicas usa apenas um rótulo único derivado de várias anotações, como o voto da maioria. Esse método geralmente ignora a incerteza e os desacordos entre os anotadores. A nossa proposta, no entanto, utiliza um modelo estatístico para representar uma gama de verdades possíveis, em vez de se basear em um único rótulo.
A Importância da Incerteza da Verdade Fundamental
Na maioria dos sistemas de IA, especialmente na saúde, a suposição é que cada caso tem uma única e clara verdade fundamental. Porém, muitas vezes, vários especialistas dão opiniões diferentes sobre qual deve ser o rótulo correto. Esse desacordo é comum em diagnósticos médicos, onde os clínicos são obrigados a tomar decisões baseadas em informações limitadas.
Por exemplo, se vários médicos analisarem uma condição de pele, eles podem propor diagnósticos diferentes com base em sua experiência e conhecimento. A dificuldade em chegar a um consenso reflete a incerteza inerente ao diagnóstico de condições médicas. Ao avaliar um sistema de IA com base em uma verdade fundamental tão incerta, é crucial reconhecer os desacordos e a incerteza que existem entre os anotadores humanos.
Reconhecendo essa incerteza, podemos evitar as armadilhas de superestimar o desempenho dos sistemas de IA, o que pode levar a resultados perigosos na saúde.
Medindo a Incerteza de Anotação e Inerente
Entender as fontes de incerteza é vital para melhorar a avaliação de sistemas de IA. Como mencionado antes, essa incerteza pode ser dividida em duas categorias principais: incerteza de anotação e incerteza inerente.
Incerteza de Anotação
Esse tipo de incerteza vem da forma como os dados são rotulados e anotados. Anotadores humanos podem errar, ter preconceitos, falta de experiência ou serem afetados pela ambiguidade na tarefa. Isso significa que até médicos bem treinados podem discordar sobre qual rótulo atribuir a uma condição de pele.
Na saúde, os especialistas costumam fornecer uma lista de condições possíveis em vez de um único diagnóstico. Essa forma de classificação parcial pode levar a mais desacordos sobre a verdade fundamental, tornando importante entender quão confiáveis são essas anotações.
Incerteza Inerente
Incerteza inerente se refere a situações onde a condição real não pode ser facilmente identificada devido a informações limitadas. Por exemplo, ao avaliar uma condição de pele apenas com base em uma foto, os detalhes podem ser insuficientes para chegar a uma conclusão definitiva.
Em muitos casos, a incerteza pode ser avaliada medindo o nível de desacordo entre vários anotadores. Quanto mais desacordo houver, maior será a incerteza.
Estrutura Proposta para Avaliação
Para avaliar melhor os sistemas de IA nessas condições de incerteza, uma nova estrutura é necessária. Em vez de usar métodos determinísticos que ignoram os desacordos entre anotadores, propomos uma abordagem estatística que incorpora a incerteza diretamente no processo de avaliação.
Agregação Estatística de Anotações
Essa abordagem modela a agregação de diferentes anotações estatisticamente. Tratando os rótulos fornecidos por vários anotadores como amostras de uma distribuição, conseguimos criar um entendimento mais robusto da verdade fundamental.
O processo de agregação envolve o uso de Modelos Estatísticos que permitem a amostragem de rótulos plausíveis com base nas opiniões de diferentes anotadores. Essa amostragem estatística pode fornecer uma representação melhor da incerteza em comparação com as técnicas tradicionais de voto da maioria ou médias.
Usando esse método, podemos derivar distribuições plausíveis sobre rótulos possíveis, em vez de depender apenas do rótulo mais comum.
Medidas para Incerteza de Anotação
Construindo sobre a agregação estatística, medidas podem ser desenvolvidas para quantificar a incerteza de anotação. Isso nos permite avaliar quão confiável é um dado rótulo ao avaliar o grau de consenso entre os anotadores.
Além disso, métricas de desempenho ajustadas para incerteza podem ser implementadas para fornecer uma imagem mais precisa das capacidades da IA. Essas métricas levam em consideração a variação no desempenho devido à incerteza presente nos rótulos, que muitas vezes é ignorada nas avaliações padrão.
Estudo de Caso: Classificação de Condições de Pele
Para demonstrar a eficácia da estrutura proposta, podemos olhar para um estudo de caso que se concentra na classificação de condições de pele a partir de imagens.
Conjunto de Dados e Anotações
Neste estudo de caso, dermatologistas foram solicitados a fornecer anotações para várias condições de pele com base em imagens. Dada a complexidade das classificações médicas, cada anotador pode fornecer uma lista de condições possíveis em vez de um único diagnóstico.
As anotações fornecidas por vários dermatologistas resultaram em uma ampla gama de opiniões, levando a um desacordo significativo entre eles. Isso serve como um excelente exemplo das incertezas inerentes e de anotação que discutimos anteriormente.
Avaliando o Desempenho do Classificador
Ao avaliar o desempenho dos classificadores treinados com esses dados, os métodos tradicionais simplesmente tomaram o rótulo principal atribuído por processos de agregação determinísticos, como a normalização inversa da classificação. No entanto, esse método falha ao levar em conta a incerteza presente nas anotações, levando a uma superestimação do desempenho do classificador.
Aplicando a estrutura estatística proposta, podemos gerar distribuições de plausibilidade sobre condições possíveis em vez de nos basearmos exclusivamente no rótulo principal.
Métricas Ajustadas para Incerteza
Com a estrutura em funcionamento, podemos derivar várias métricas ajustadas para incerteza para avaliar o desempenho do classificador de forma mais precisa. Por exemplo, em vez de apenas medir a precisão com base na melhor previsão, podemos analisar com que frequência as melhores previsões incluem outras condições prováveis.
Essa análise mais profunda revela que muitos classificadores que parecem precisos com base em métricas padrão podem não ter um bom desempenho quando o fator de incerteza é levado em conta.
Conclusão
Como vimos, avaliar sistemas de IA na saúde requer uma compreensão mais sutil das incertezas presentes na verdade fundamental. Métodos tradicionais que ignoram essas incertezas podem levar a resultados enganosos, especialmente em aplicações críticas para a segurança, como diagnóstico médico.
Ao empregar uma estrutura estatística que leva em conta tanto a incerteza de anotação quanto a inerente, podemos chegar a uma avaliação mais precisa do desempenho do modelo de IA. Essa abordagem melhora nossa compreensão da confiabilidade das previsões da IA, levando, em última instância, a uma melhor tomada de decisão em contextos de saúde.
Reconhecer o desacordo entre os anotadores humanos e abordar as incertezas nos modelos de aprendizado de máquina pode ajudar a melhorar as aplicações de IA na medicina, garantindo que os pacientes recebam melhores resultados e minimizando os riscos associados a diagnósticos errados.
À medida que a IA continua a evoluir e encontrar seu lugar na saúde, estruturas que integrem a incerteza são essenciais para o uso responsável e eficaz dessas tecnologias em cenários críticos para a vida.
Título: Evaluating AI systems under uncertain ground truth: a case study in dermatology
Resumo: For safety, AI systems in health undergo thorough evaluations before deployment, validating their predictions against a ground truth that is assumed certain. However, this is actually not the case and the ground truth may be uncertain. Unfortunately, this is largely ignored in standard evaluation of AI models but can have severe consequences such as overestimating the future performance. To avoid this, we measure the effects of ground truth uncertainty, which we assume decomposes into two main components: annotation uncertainty which stems from the lack of reliable annotations, and inherent uncertainty due to limited observational information. This ground truth uncertainty is ignored when estimating the ground truth by deterministically aggregating annotations, e.g., by majority voting or averaging. In contrast, we propose a framework where aggregation is done using a statistical model. Specifically, we frame aggregation of annotations as posterior inference of so-called plausibilities, representing distributions over classes in a classification setting, subject to a hyper-parameter encoding annotator reliability. Based on this model, we propose a metric for measuring annotation uncertainty and provide uncertainty-adjusted metrics for performance evaluation. We present a case study applying our framework to skin condition classification from images where annotations are provided in the form of differential diagnoses. The deterministic adjudication process called inverse rank normalization (IRN) from previous work ignores ground truth uncertainty in evaluation. Instead, we present two alternative statistical models: a probabilistic version of IRN and a Plackett-Luce-based model. We find that a large portion of the dataset exhibits significant ground truth uncertainty and standard IRN-based evaluation severely over-estimates performance without providing uncertainty estimates.
Autores: David Stutz, Ali Taylan Cemgil, Abhijit Guha Roy, Tatiana Matejovicova, Melih Barsbey, Patricia Strachan, Mike Schaekermann, Jan Freyberg, Rajeev Rikhye, Beverly Freeman, Javier Perez Matos, Umesh Telang, Dale R. Webster, Yuan Liu, Greg S. Corrado, Yossi Matias, Pushmeet Kohli, Yun Liu, Arnaud Doucet, Alan Karthikesalingam
Última atualização: 2023-07-05 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2307.02191
Fonte PDF: https://arxiv.org/pdf/2307.02191
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.