Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Inteligência Artificial# Computação e linguagem# Aprendizagem de máquinas

Avanços em Modelos de Visão-Linguagem para Histopatologia

Um novo modelo melhora a integração de imagens e texto na patologia.

― 9 min ler


Visão-Linguagem emVisão-Linguagem emPatologiaintegração avançada de modelos.Transformando a histopatologia com a
Índice

A histopatologia envolve o estudo de tecidos sob um microscópio para diagnosticar doenças. As imagens produzidas nesse processo são chamadas de Imagens de Lâmina Inteira (WSIs). Essas imagens são muito detalhadas e podem ter gigapixels de tamanho, tornando-as úteis para identificar pequenos detalhes que podem ajudar a tomar decisões médicas importantes.

Lidar com essas grandes imagens oferece tanto possibilidades quanto desafios. Médicos e pesquisadores frequentemente precisam emparelhar essas imagens com textos descritivos de relatórios de patologia que resumem os achados. No entanto, esse emparelhamento não é simples porque os relatórios cobrem observações-chave de múltiplas lâminas, o que pode dificultar a criação de vínculos claros entre imagens específicas e suas descrições.

Desafios com Relatórios de Patologia

Os relatórios de patologia fornecem insights com base em várias lâminas tiradas de um único caso. Essas lâminas podem conter diferentes amostras de tecido, e os relatórios resumem os achados em todas elas. Isso significa que algumas lâminas podem ser mais importantes para o diagnóstico do que outras, levando a complicações na correspondência entre imagens e o texto correto.

A maioria das pesquisas existentes foca em regiões específicas dentro das lâminas, o que pode ignorar informações valiosas encontradas na totalidade da WSI. A abordagem atual para elaborar pares de imagem-texto muitas vezes se baseia em anotações dessas seções menores ou métodos auto-supervisionados, deixando os relatórios de patologia subutilizados.

Desenvolvendo um Modelo de Visão-Linguagem

Para enfrentar esses desafios, desenvolvemos um modelo que combina compreensão visual com processamento de linguagem, extraindo de uma estrutura bem conhecida chamada BLIP-2. Emparelhamos nosso modelo com textos curados de relatórios de patologia, permitindo um melhor emparelhamento entre imagens e descrições.

Essa configuração abre novas aplicações, como buscar imagens específicas com base em descrições textuais ou gerar relatórios a partir das imagens. Permite uma melhor integração entre dados de imagem e processamento de linguagem, aumentando o potencial de sistemas automatizados em patologia.

Utilizamos um conjunto de dados com mais de 350.000 WSIs e textos diagnósticos, cobrindo várias doenças e tipos de tecido. Nossas avaliações incluíram avaliações de patologistas sobre geração de texto e recuperação, juntamente com classificações de WSIs e priorização de fluxo de trabalho.

Visão Geral do Modelo e Metodologia

O modelo alinha representações tanto de WSIs quanto de texto, permitindo uma melhor recuperação e Classificação de informações. Ele utiliza um codificador de WSI para processar as imagens e alinha isso com um modelo de linguagem grande (LLM) para facilitar tarefas como gerar descrições textuais e responder perguntas com base nas lâminas.

A base de nossa abordagem reside na obtenção de embeddings para os patches extraídos das WSIs. Em vez de focar apenas em pequenas regiões, nosso modelo processa a imagem inteira para criar uma compreensão abrangente do tecido presente.

O progresso recente na histopatologia digital enfatizou as vantagens de vincular dados visuais e textuais, com várias fontes para gerar pares de imagem-texto. Ao comparar interpretações em nível de lâmina, nossa abordagem visa abordar algumas limitações presentes em pesquisas passadas.

Abordando Desafios de Alinhamento Imagem-Texto

Um elemento essencial de nosso trabalho é melhorar o alinhamento de imagens e textos apesar das complexidades inerentes associadas às WSIs. Cada lâmina pode estar conectada a um segmento do relatório de patologia que discute seus achados, mas estabelecer essas conexões não é sempre simples.

Para abordar esse desafio, categorizamos nossos pares em um conjunto "limpo" e um conjunto "ruidoso". O conjunto limpo consiste em lâminas com associações de texto mais claras, enquanto o conjunto ruidoso inclui aquelas com menos certeza. Essa separação nos permite focar em criar vínculos mais fortes para os dados mais confiáveis.

Como um passo adicional, aprimoramos nosso conjunto de dados ao complementá-lo com informações do The Cancer Genome Atlas (TCGA), que forneceu WSIs diagnósticas em uma ampla gama de tipos de câncer. Essa diversidade adicionada ajuda o modelo a aprender de forma mais eficaz e responder melhor durante as avaliações.

Curadoria de Pares Imagem-Texto

Na histopatologia, os espécimes de tecido são organizados por caso, parte e bloco, com achados diagnósticos relatados para cada parte. Essa estrutura de relatórios introduz complexidade ao associar lâminas específicas com suas respectivas descrições textuais.

Existem três categorias de associações: uma lâmina de um único bloco, múltiplas lâminas de um único bloco e lâminas que abrangem múltiplos blocos. A probabilidade de informações incompatíveis aumenta com cada categoria. Para gerenciar isso, primeiro emparelhamos lâminas com seu texto associado usando indicadores de parte presentes tanto nos metadados da lâmina quanto no relatório.

Para o TCGA, empregamos metadados de caso estruturados para criar descrições básicas, garantindo que minimizássemos erros ao emparelhar lâminas com texto. Ao garantir que incluíssemos apenas as lâminas mais representativas, visamos reduzir as chances de associar informações incorretas.

Visão Geral dos Dados

Nosso conjunto de dados primário compreende mais de 350.000 WSIs provenientes de um hospital de ensino, consistindo principalmente de tecidos corados com hematoxilina e eosina (HE). Este conjunto de dados reflete uma seleção realista de tipos de casos vistos na prática patológica nos EUA.

Para enriquecer ainda mais nosso conjunto de dados para casos de câncer, incluímos dados desidentificados do TCGA, que contém WSIs diagnósticas em numerosos tipos de estudo de tumores sólidos. Os dados foram organizados para permitir um treinamento eficaz em tarefas de alinhamento imagem-texto.

Utilizando Amostragem de Patches e Codificadores

Para representar cada WSI de forma eficaz, amostramos até 10.240 patches de tecido por imagem. Usando um codificador de patch específico para patologia, transformamos esses patches em embeddings que nosso modelo pode processar.

O codificador de WSI constrói sobre esses embeddings, integrando informações posicionais para manter o contexto dentro da imagem. Essa configuração garante que o modelo esteja ciente de onde cada patch está localizado dentro da lâmina, aprimorando sua capacidade de gerar representações precisas.

Nossa estratégia de modelagem gira em torno do alinhamento dos embeddings de WSI e texto, criando uma estrutura capaz de gerar texto descritivo e apoiar tarefas de recuperação de imagens. Ao treinar nosso modelo usando uma mistura de técnicas contrastivas e gerativas, visamos um desempenho mais robusto em várias aplicações.

Avaliação da Geração de Texto e Recuperação

Ao avaliar as capacidades de geração de texto do modelo, descobrimos que os patologistas classificaram mais de três quartos dos textos gerados como principalmente ou altamente precisos. Isso indica a proficiência do modelo em produzir descrições que se alinham bem com os achados reais nas lâminas.

Além disso, os patologistas avaliaram a capacidade do modelo de recuperar textos apropriados associados a WSIs específicas. A precisão Top-K para recuperar textos relevantes mostrou resultados encorajadores, demonstrando a eficácia do modelo em identificar descrições precisas.

As avaliações indicaram que os WSIs alinhados à linguagem funcionam de forma eficaz, proporcionando resultados promissores para futuras aplicações em patologia computacional.

Desempenho na Classificação de WSI

Avaliamos o desempenho do modelo na classificação de diferentes tipos de câncer e classificações de procedimentos. Ao comparar os embeddings do modelo com textos curados, conseguimos atribuir rótulos diagnósticos apropriados às WSIs.

Nossas tarefas incluíram subtipificação de vários tipos de câncer, como câncer de pulmão de não pequenas células e câncer de mama, além de distinguir entre amostras de biópsia e ressecção. O desempenho do modelo nessas tarefas de classificação destacou suas capacidades em tomar decisões informadas com base nos dados.

Calculamos intervalos de confiança com base em amostragem repetida para garantir a confiabilidade de nossos resultados. A precisão do modelo nessas tarefas afirma seu potencial para aplicações práticas em ambientes médicos.

Direção Futura e Melhorias

Olhando para o futuro, pretendemos refinar ainda mais nosso modelo para melhorar seu desempenho e capacidades. Explorar técnicas adicionais em modelagem visão-linguagem juntamente com diferentes Modelos de linguagem grande pode levar a sistemas mais eficazes.

A integração de mecanismos de autoatenção eficientes pode fornecer uma melhor representação das relações entre elementos dentro da WSI. Investigar como modelar em várias lâminas dentro de um caso também pode melhorar a compreensão de casos complexos.

Nosso trabalho indica muitas possibilidades empolgantes para alinhar imagens e texto em patologia. Ao criar sistemas que aproveitam as capacidades de raciocínio de modelos avançados, podemos aprimorar a qualidade dos relatórios diagnósticos e melhorar os fluxos de trabalho médicos.

Conclusão

O desenvolvimento de modelos de visão-linguagem para analisar Imagens de Lâmina Inteira na histopatologia marca um passo significativo em direção ao avanço da patologia computacional. Ao projetar modelos que vinculam efetivamente imagens com seus textos descritivos, abrimos novas avenidas para processos automatizados de patologia, ajudando os profissionais médicos a tomar decisões informadas.

Esse trabalho exemplifica como a combinação de compreensão visual com processamento de linguagem pode levar a soluções inovadoras na saúde. O futuro promete grande potencial à medida que continuamos a explorar e desenvolver essas tecnologias, abrindo caminho para práticas de patologia melhoradas e diagnósticos mais precisos.

Fonte original

Título: PathAlign: A vision-language model for whole slide images in histopathology

Resumo: Microscopic interpretation of histopathology images underlies many important diagnostic and treatment decisions. While advances in vision-language modeling raise new opportunities for analysis of such images, the gigapixel-scale size of whole slide images (WSIs) introduces unique challenges. Additionally, pathology reports simultaneously highlight key findings from small regions while also aggregating interpretation across multiple slides, often making it difficult to create robust image-text pairs. As such, pathology reports remain a largely untapped source of supervision in computational pathology, with most efforts relying on region-of-interest annotations or self-supervision at the patch-level. In this work, we develop a vision-language model based on the BLIP-2 framework using WSIs paired with curated text from pathology reports. This enables applications utilizing a shared image-text embedding space, such as text or image retrieval for finding cases of interest, as well as integration of the WSI encoder with a frozen large language model (LLM) for WSI-based generative text capabilities such as report generation or AI-in-the-loop interactions. We utilize a de-identified dataset of over 350,000 WSIs and diagnostic text pairs, spanning a wide range of diagnoses, procedure types, and tissue types. We present pathologist evaluation of text generation and text retrieval using WSI embeddings, as well as results for WSI classification and workflow prioritization (slide-level triaging). Model-generated text for WSIs was rated by pathologists as accurate, without clinically significant error or omission, for 78% of WSIs on average. This work demonstrates exciting potential capabilities for language-aligned WSI embeddings.

Autores: Faruk Ahmed, Andrew Sellergren, Lin Yang, Shawn Xu, Boris Babenko, Abbi Ward, Niels Olson, Arash Mohtashamian, Yossi Matias, Greg S. Corrado, Quang Duong, Dale R. Webster, Shravya Shetty, Daniel Golden, Yun Liu, David F. Steiner, Ellery Wulczyn

Última atualização: 2024-06-27 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2406.19578

Fonte PDF: https://arxiv.org/pdf/2406.19578

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes