IA e Humanos: Um Estudo sobre Detecção de Distúrbios Genéticos
Analisando as diferenças na análise de imagens entre ferramentas de IA e especialistas médicos.
― 7 min ler
Índice
O aprendizado profundo e a inteligência artificial estão sendo cada vez mais usados na saúde, especialmente em genética. Essas tecnologias ajudam em várias tarefas, como ler dados genômicos, identificar mudanças genéticas, processar anotações médicas e analisar imagens médicas. Um uso interessante da IA é fazer suposições educadas sobre Distúrbios Genéticos com base em fotos faciais. Essas ferramentas de IA já são comuns tanto em estudos quanto em ambientes de saúde.
Apesar de algumas discussões sobre seu uso, a IA deve mudar a saúde em breve. Uma questão importante é quão bem esses sistemas de IA se saem em comparação com humanos, especialmente com pessoas de níveis diferentes de conhecimento. Compreender essas diferenças pode ajudar a verificar quão precisos são esses modelos de IA e se há fatores que afetam seus resultados. Por exemplo, estudos mostraram que a IA consegue identificar sinais de COVID-19 em radiografias de tórax com precisão, mas pode depender de informações enganosas que não estão diretamente relacionadas aos pulmões. Outro caso envolve modelos de linguagem grandes que podem fornecer respostas convincentes, mas erradas.
Para estudar mais essas questões no campo da genética, realizamos um experimento focando em como as pessoas prestam atenção em fotos de indivíduos com e sem distúrbios genéticos. Nosso objetivo era ver como os Padrões de Atenção dos especialistas médicos se comparavam aos de um modelo de IA. Além disso, queríamos comparar como os especialistas genéticos olhavam para as imagens em relação aos que não tinham formação médica. Nossas descobertas indicaram que as áreas de atenção diferiam significativamente entre esses grupos.
Coleta de Dados
No nosso estudo, escolhemos imagens de crianças com distúrbios genéticos comuns, como síndrome de Down e síndrome de Williams, que estão disponíveis publicamente. Também incluímos imagens de crianças saudáveis de idades semelhantes. Os distúrbios genéticos selecionados são bem conhecidos e têm Características Faciais distintas que os geneticistas reconheceriam. Dois geneticistas e um conselheiro genético ajudaram a escolher as imagens que melhor representam os distúrbios escolhidos. No total, usamos 16 imagens, cada uma cuidadosamente preparada para garantir que estivesse centralizada e alinhada.
Experimentos de Rastreamento Ocular
Usamos um sistema especializado de rastreamento ocular para estudar como as pessoas viam essas imagens. Os experimentos ocorreram em dois locais diferentes e os participantes foram solicitados a olhar para cada imagem por sete segundos. Depois de olhar, responderam perguntas sobre se a imagem mostrava alguém com uma condição genética e, se sim, qual. Esse tempo de visualização foi escolhido com base em testes anteriores que indicaram que era tempo suficiente para os participantes avaliarem a imagem sem serem excessivamente influenciados por suas memórias da foto.
Os grupos de participantes incluíam geneticistas, aqueles em formação para genética e vários não-especialistas. Alguns não-especialistas tinham alguma experiência com distúrbios genéticos, já que eram estudantes de pós-graduação interessados em genética, mas não eram médicos treinados.
Extração e Análise de Dados
Coletamos dados de rastreamento ocular de duas maneiras principais. Primeiro, fizemos mapas de calor individuais para cada participante e imagem. Um mapa de calor mostra visualmente onde as pessoas mais olham em uma imagem. Ajustamos as configurações de rastreamento para melhor precisão e usamos uma paleta de cores específica para ajudar na nossa análise.
Em seguida, identificamos áreas de interesse nas imagens que correspondiam a características faciais particulares associadas às condições genéticas. Ao focar em características específicas, conseguimos analisar quanto tempo os participantes olhavam para essas áreas e como seus padrões de olhar diferiam.
Nossas observações iniciais mostraram que as pessoas geralmente se concentravam nos olhos, nariz e boca ao olhar para rostos. Esses pontos de foco comuns dificultaram a comparação de como diferentes grupos viam as imagens. Para resolver isso, calculamos um mapa de calor médio para clínicos e não-clínicos em todas as imagens e subtraímos esse padrão comum dos mapas de calor individuais. Isso nos ajudou a entender melhor as áreas de atenção únicas para cada grupo.
Comparando a Atenção Humana e os Resultados da IA
Usamos um modelo de IA para classificar as imagens que estudamos. O modelo foi treinado para reconhecer várias condições genéticas com base nas imagens que selecionamos. A IA se saiu bem, com uma alta taxa de precisão na identificação se uma pessoa tinha uma condição genética. No entanto, nosso foco principal estava em como a atenção visual dos participantes humanos se comparava aos resultados da IA.
Examinamos se as áreas que chamaram a atenção dos clínicos correspondiam às que o modelo de IA considerava importantes para fazer previsões sobre condições genéticas. Embora os padrões de atenção humana e da IA tenham sido avaliados, ficou claro que frequentemente destacavam diferentes regiões de interesse.
Essa diferença sugere que, embora os modelos de IA possam classificar imagens de forma eficaz, a maneira como "veem" as imagens não é a mesma que a interpretação de observadores humanos. Isso levanta questões sobre a interpretação dos resultados da IA, especialmente ao considerar quais características podem influenciar um diagnóstico.
Diferenças Entre Clínicos e Não-Clínicos
Comparamos a atenção de clínicos bem-sucedidos, aqueles que identificaram corretamente as condições genéticas, com a de não-clínicos durante os experimentos. Embora ambos os grupos pudessem reconhecer indivíduos afetados corretamente, o foco em diferentes características faciais variava. As semelhanças na atenção eram mais evidentes ao olhar apenas sinais visuais menos críticos, mas se tornaram mais distintas ao examinar as regiões visualmente mais significativas.
Quando analisamos de perto a atenção de diferentes subgrupos de clínicos, como clínicos bem-sucedidos versus aqueles com desempenho abaixo do esperado, encontramos diferenças notáveis em como processavam visualmente as imagens. Essa tendência continuou ao analisar os não-clínicos com base em quão bem se saíram na identificação de condições genéticas.
Conclusão
Este estudo revelou duas descobertas principais. Primeiro, observadores humanos e ferramentas de IA diferem significativamente em como analisam imagens que mostram possíveis distúrbios genéticos. Compreender essas diferenças pode ser útil para melhorar futuras aplicações de IA e entender a tomada de decisões humanas.
Em segundo lugar, descobrimos que clínicos e não-clínicos exibem comportamentos visuais diferentes. Essas informações podem ajudar a melhorar o treinamento para aqueles que estão aprendendo a reconhecer condições genéticas. À medida que a IA entra mais comumente em ambientes clínicos, estudos como este podem impactar como os profissionais de saúde utilizam e interagem com ferramentas de IA para diagnosticar distúrbios genéticos.
No entanto, este estudo teve limitações, incluindo o número de participantes e imagens utilizadas. A variabilidade na experiência entre os participantes e a seleção de imagens específicas podem ter influenciado os resultados. Estudos futuros devem buscar incluir grupos maiores e conjuntos de dados mais diversos para garantir que as descobertas possam ser generalizadas para diferentes condições genéticas e abordagens de IA.
Para dar continuidade a esses resultados, os pesquisadores poderiam explorar várias questões relacionadas à genética usando diferentes tipos de dados encontrados na prática clínica e continuar avaliando várias técnicas de IA para uma melhor compreensão e diagnóstico.
Título: Human and computer attention in assessing genetic conditions
Resumo: Deep learning (DL) and other types of artificial intelligence (AI) are increasingly used in many biomedical areas, including genetics. One frequent use in medical genetics involves evaluating images of people with potential genetic conditions to help with diagnosis. A central question involves better understanding how AI classifiers assess images compared to humans. To explore this, we performed eye-tracking analyses of geneticist clinicians and non-clinicians. We compared results to DL-based saliency maps. We found that human visual attention when assessing images differs greatly from the parts of images weighted by the DL model. Further, individuals tend to have a specific pattern of image inspection, and clinicians demonstrate different visual attention patterns than non-clinicians.
Autores: Benjamin D Solomon, D. Duong, A. R. Johny, S. Ledgister Hanchard, C. Fortney, F. Hellmann, P. Hu, S. Moosa, T. Patel, S. Persky, O. Sumer, C. Tekendo-Ngongang, T.-C. Hsieh, R. L. Waikel, E. Andre, P. Krawitz
Última atualização: 2023-07-28 00:00:00
Idioma: English
Fonte URL: https://www.medrxiv.org/content/10.1101/2023.07.26.23293119
Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.07.26.23293119.full.pdf
Licença: https://creativecommons.org/publicdomain/zero/1.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.