Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Aprendizagem de máquinas

Melhorando o rastreamento do câncer de mama com tecnologia

Avanços na tecnologia buscam aumentar as taxas de detecção do câncer de mama.

Edward Kendall, Paraham Hajishafiezahramini, Matthew Hamilton, Gregory Doyle, Nancy Wadden, Oscar Meruvia-Pastor

― 9 min ler


Avanços Tecnológicos naAvanços Tecnológicos naDetecção do Câncer deMamaprecoce do câncer de mama.Novos métodos melhoram a detecção
Índice

O câncer de mama é uma grande preocupação, principalmente conforme as mulheres vão envelhecendo. Os especialistas em saúde sugerem que mulheres acima de 40 ou 50 anos façam mamografias a cada poucos anos. Só no Canadá e nos EUA, cerca de 40 milhões de mamografias são feitas todo ano. Dentre elas, cerca de dois milhões são sinalizadas pelos médicos como suspeitas. No entanto, apenas cerca de 270 mil desses casos acabam sendo câncer de mama de verdade. Isso significa que menos de 1% dos exames mostram câncer real. Engraçado é que, mesmo com toda essa checagem, cerca de 20% dos cânceres de mama acabam passando despercebidos.

Pra ajudar a acertar, muitas clínicas estão tentando a leitura dupla (onde dois médicos analisam o mesmo exame) e usando inteligência artificial. Esses esforços parecem ajudar um pouco na precisão, mas também deixam tudo mais caro e não resolvem totalmente o problema dos alarmes falsos.

Desde os anos 1980, quando começaram as triagens mais regulares, a tecnologia avançou bastante. No começo, as mamografias eram otimizadas com certos materiais para os raios-X, e um filme especial tornava as imagens mais claras. Com o tempo, essa tecnologia de filme foi substituída por uma nova digital, que permitiu um melhor armazenamento de dados e ajudou a agilizar todo o processo. Hoje em dia, as mamografias são geralmente armazenadas em um formato chamado DICOM, que contém várias informações importantes sobre como as imagens foram feitas.

As inovações nos detectores significam que agora temos câmeras que veem melhor e capturam até os menores sinais de problemas. Também surgiram novas formas de tirar fotos da mama que ajudam os médicos a enxergarem melhor entre os tecidos sobrepostos. Com milhares de terabytes de imagens disponíveis, programas de computador foram criados para ajudar a identificar sinais de alerta.

Nos primeiros dias, os programas de computador procuravam pontos claros nas mamografias, que geralmente significavam áreas com calcificações que poderiam indicar câncer. Mas nem todos os cânceres mostram esses sinais, então os pesquisadores começaram a focar em encontrar massas, que são diferentes das calcificações. Essas massas podem ser mais difíceis de detectar porque muitas vezes não parecem manchas claras. Em vez disso, podem ter bordas borradas que se misturam ao tecido normal, dificultando a identificação, especialmente em mulheres mais jovens, cujos tecidos mamários costumam ser mais densos e fibrosos.

À medida que os algoritmos de computador se tornam mais complexos, fica mais complicado melhorar como eles funcionam na triagem do câncer de mama. Além disso, ninguém quer que esses programas deixem tudo mais caro do que já é. Estudos iniciais descobriram que esses programas poderiam, às vezes, tornar as coisas menos eficientes por causa de todos os alarmes falsos. Enquanto radiologistas experientes não viam muito benefício em usar a ajuda dos computadores, os menos experientes sim. É uma mistura, mas muitos desenvolvedores continuam tentando aprimorar esses programas.

No entanto, o progresso desacelerou um pouco. O software inicial era geralmente mais fácil de criar porque tinha um foco mais estreito. À medida que os desenvolvedores tentam enfrentar problemas mais difíceis, há mais chances de dar errado. Além disso, qualquer software usado para diagnóstico deve ser aprovado pelas autoridades médicas, o que leva tempo e pode revelar a falta de dados de testes bons.

Conjuntos de Dados Existentes: Uma Revisão

Muitas tentativas de melhorar esses programas usaram alguns conjuntos de dados mais antigos, como o MIAS e o DDSM. Existem outros conjuntos de dados por aí, mas a maioria não é fácil de acessar. O popular conjunto de dados DDSM, por exemplo, contém muito mais casos anormais do que normais. Isso distorce os dados e pode levar a um programa de computador que não se sai bem com pacientes reais.

Além disso, há vários tipos de imagens nesses conjuntos de dados. Alguns usam imagens de filme digitalizadas, enquanto outros misturam diferentes tipos de imagens digitais. Os formatos de arquivo são bem variados, e muitos desses conjuntos de dados nem usam o formato padrão DICOM, o que é frustrante pra quem tenta licenciar software para uso médico.

Quando se trata de resolução, um programa que busca calcificações pequenas pode perdê-las se as imagens não estiverem claras o suficiente. Se a resolução for muito alta, pode travar por causa dos arquivos enormes. Diminuir a qualidade pode ajudar a acelerar as coisas, mas pode perder alguns detalhes importantes.

Os tipos de imagens e a falta de informações importantes dificultam para os programadores desenvolverem um software confiável. Muitos conjuntos de dados também faltam detalhes específicos sobre o equipamento usado nas mamografias, o que pode ajudar a padronizar a forma como as imagens são processadas. O formato DICOM é útil porque mantém essas informações no cabeçalho de cada arquivo, facilitando tudo.

Um grande obstáculo com programas de computador que usam aprendizado profundo é a necessidade de uma grande quantidade de dados de imagem para treinamento. Os conjuntos de dados para triagem de câncer de mama muitas vezes não têm casos normais e Suspeitos suficientes. Alguns conjuntos de dados usados frequentemente incluem:

  • DDSM: Contém mais de 10.000 imagens, mas o número de casos anormais supera muito o que você veria em um programa de triagem real.

  • CBIS-DDSM: Uma versão mais detalhada do DDSM focada em imagens cancerosas.

  • MIAS: Um conjunto de dados clássico com imagens digitalizadas que foram analisadas para anomalias.

  • InBreast: Um conjunto de dados recente com imagens de pacientes, cada uma cuidadosamente anotada por especialistas.

  • VinDr: Um conjunto de dados do Vietnã com milhares de imagens que também inclui avaliações de densidade mamária e mais.

  • CMMD: Um conjunto de dados chinês que contém uma mistura de casos benignos e malignos.

  • RSNA: Um grande conjunto de dados com muitas imagens, mas menos casos de câncer que os outros.

  • OPTIMAM: Um conjunto de dados significativo do Reino Unido que rastreia cânceres de intervalo e casos verificados por biópsia.

Um conjunto de dados interessante é o NL-Breast-Screening (NLBS), que contém uma mistura mais realista de casos. O objetivo era coletar imagens de um programa de triagem em Newfoundland com o consentimento adequado.

Nesse conjunto de dados, todos os pacientes diagnosticados foram confirmados por mais testes. Os casos normais foram verificados como livres de câncer por pelo menos dois anos. Eles coletaram quase 27.000 imagens representando cerca de 6.000 casos. O conjunto de dados deles é uma joia por espelhar números do mundo real melhor do que muitos outros conjuntos de dados.

O Conjunto de Dados NLBS e suas Descobertas

O conjunto de dados NLBS inclui uma mistura de casos normais, Falsos Positivos e casos positivos de câncer. A idade média dos pacientes no grupo positivo de câncer era um pouco mais velha do que no grupo de falso positivo, revelando que mulheres mais velhas tendem a ser diagnosticadas com mais frequência. O conjunto de dados também inclui uma variedade de imagens de ambos os lados da mama e de diferentes ângulos, o que é necessário para ter uma análise completa.

Apesar de terem uma coleção considerável, há uma preocupação de que não haja casos confirmados suficientes para capturar todos os tipos de câncer. Eles planejam continuar coletando imagens para resolver essa questão. Enquanto isso, podem usar imagens de outras fontes para preencher as lacunas, lembrando que as populações nesses conjuntos de dados podem ser diferentes da população canadense.

O conjunto de dados NLBS exclui informações sobre a densidade do tecido mamário, mas é verificado o suficiente para que todos os casos normais tenham sido confirmados como livres de câncer. As imagens estão no formato DICOM, facilitando para os pesquisadores utilizá-las.

Avançando: Sugestões e Melhorias

Ao olhar para o futuro das triagens de câncer de mama e tecnologia, há algumas coisas a serem consideradas:

  1. Metas de Sensibilidade: Se quisermos encontrar todos os casos positivos, precisamos analisar as imagens normais mais de perto para identificar características que possam indicar câncer.

  2. Uso de Tecnologia Avançada: Vários falsos positivos podem significar uma mudança em como treinamos nossos algoritmos para tornar as previsões mais equilibradas.

  3. Comparando Métodos de Detecção: É importante entender se os falsos positivos dos sistemas de IA são os mesmos dos radiologistas, para que possamos melhorar conforme necessário.

  4. Métricas de Desempenho: Relatar como os sistemas se saem através de várias medidas, como AUC (Área Sob a Curva) e matrizes de confusão, pode fornecer insights mais claros.

  5. Técnicas de Pré-Processamento: Devemos investigar formas de filtrar dados irrelevantes para focar no que realmente importa.

  6. Testando Vários Recursos: Tentar diferentes recursos ou métodos pode ajudar a identificar o que funciona melhor na detecção do câncer de mama.

  7. Considerações sobre Radiação: É fundamental ficar de olho em quanto de radiação está sendo utilizada nesses procedimentos.

  8. Abordando o Teor de Gordura: Prever o teor de gordura nos tecidos mamários também pode ajudar a reduzir as taxas de erro nos diagnósticos.

  9. Incorporando Insights de Radiologistas: Alimentar resumos dos radiologistas nos dados de treinamento pode levar a modelos mais precisos.

  10. Procedimentos de Acompanhamento: Rastrear cânceres que aparecem mais tarde e reexaminar casos negativos pode ajudar a melhorar os resultados.

É essencial criar um plano sólido para os testes que aborde especificamente o problema de vazamentos de dados que podem distorcer os resultados.

Conclusão

Navegar pelo cenário da triagem do câncer de mama e inteligência artificial não é tarefa fácil. Embora avanços tenham sido feitos em tecnologia e coleta de dados, vários desafios ainda permanecem. Os esforços contínuos para reunir conjuntos de dados de qualidade e aprimorar métodos de diagnóstico são cruciais para melhorar a detecção e tratamento do câncer de mama. Mantendo um olhar para o futuro e se adaptando continuamente a novas descobertas, o objetivo final continua: encontrar o câncer de mama o mais cedo possível e salvar mais vidas. Lembre-se, rir pode não curar o câncer, mas com certeza ajuda a aliviar a carga enquanto trabalhamos para vencê-lo!

Fonte original

Título: Full Field Digital Mammography Dataset from a Population Screening Program

Resumo: Breast cancer presents the second largest cancer risk in the world to women. Early detection of cancer has been shown to be effective in reducing mortality. Population screening programs schedule regular mammography imaging for participants, promoting early detection. Currently, such screening programs require manual reading. False-positive errors in the reading process unnecessarily leads to costly follow-up and patient anxiety. Automated methods promise to provide more efficient, consistent and effective reading. To facilitate their development, a number of datasets have been created. With the aim of specifically targeting population screening programs, we introduce NL-Breast-Screening, a dataset from a Canadian provincial screening program. The dataset consists of 5997 mammography exams, each of which has four standard views and is biopsy-confirmed. Cases where radiologist reading was a false-positive are identified. NL-Breast is made publicly available as a new resource to promote advances in automation for population screening programs.

Autores: Edward Kendall, Paraham Hajishafiezahramini, Matthew Hamilton, Gregory Doyle, Nancy Wadden, Oscar Meruvia-Pastor

Última atualização: 2024-11-04 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2411.02710

Fonte PDF: https://arxiv.org/pdf/2411.02710

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes