Avançando a IA Biomédica com Novo Conjunto de Dados
Um novo conjunto de dados preenche a lacuna na pesquisa de IA biomédica.
― 6 min ler
Índice
Avanços recentes em inteligência artificial levaram ao desenvolvimento de grandes modelos que analisam texto e imagens. No entanto, esse progresso não foi igual no campo biomédico. Uma das grandes razões para essa diferença é a quantidade limitada de dados disponíveis para treinar esses modelos. Para resolver isso, criamos um novo conjunto de dados que contém um grande número de pares de imagem e legenda de documentos Biomédicos. Esse conjunto é oito vezes maior do que qualquer outro usado anteriormente nessa área.
Contexto
Nos modelos de inteligência artificial, os modelos fundamentais são essenciais. Esses modelos aprendem com uma ampla gama de dados para ajudar em várias tarefas. A maior parte do crescimento significativo foi vista em áreas gerais, como visão computacional e processamento de linguagem natural. No entanto, quando se trata de medicina e biologia, criar Conjuntos de dados é mais desafiador por causa da necessidade de conhecimento especializado e preocupações com a privacidade dos pacientes.
Para melhorar essa situação, focamos em construir um conjunto de dados biomédicos de alta qualidade. Coletamos dados de artigos científicos disponíveis publicamente, extraindo especificamente imagens e suas legendas. Usando recursos como o PubMed Central, garantimos que o conteúdo seja confiável e bem revisado.
Criação do Conjunto de Dados
Nosso conjunto de dados inclui 1,6 milhão de pares de imagem e legenda. Esses pares foram coletados da literatura científica onde figuras e legendas estão prontamente disponíveis. O processo envolveu três etapas principais: coletar figuras médicas, separar subfiguras e alinhar legendas com essas figuras.
Coletando Figuras Médicas
Na etapa inicial, extraímos figuras e legendas de artigos científicos. Em setembro de 2022, havíamos processado mais de 2,4 milhões de artigos, resultando em mais de 12 milhões de pares de figura-legenda. Para identificar figuras médicas relevantes, usamos um método de filtragem por palavras-chave para selecionar aquelas relacionadas a vários tópicos médicos. Após a filtragem, classificamos essas figuras em diferentes categorias, identificando, no total, 381.096 figuras médicas.
Separando Sub-Figuras
Um número significativo de figuras contém múltiplos painéis ou partes, conhecidos como figuras compostas. Nossa próxima etapa foi separar essas figuras compostas em subfiguras individuais. Treinamos um modelo para detectar essas subfiguras, alcançando alta precisão na classificação. Após o processamento, acabamos com cerca de 1,6 milhão de subfiguras, cada uma ligada às legendas originais.
Alinhando Legendas
Para criar conexões significativas entre subfiguras e suas respectivas legendas, precisávamos separar essas legendas em partes menores. Usamos uma ferramenta projetada para esse propósito e alinhamos subfiguras com suas legendas correspondentes. No final desse processo, conseguimos formar um conjunto de dados com mais de 1 milhão de pares alinhados.
Treinamento do Modelo
Com o conjunto de dados preparado, passamos para o treinamento de um modelo projetado para conectar imagens e texto. Esse modelo, baseado em arquiteturas existentes, foi treinado usando um método que incentiva o modelo a aprender as relações entre as imagens e seu texto correspondente.
Objetivos de Treinamento
Empregamos dois principais objetivos de treinamento: aprendizado contrastivo de imagem-texto e modelagem de linguagem mascarada. O primeiro objetivo ajuda a garantir que as imagens e suas representações textuais pareadas estejam intimamente ligadas na compreensão do modelo. A segunda tarefa envolve prever palavras faltantes nas legendas, fornecendo um contexto adicional ao modelo sobre o texto.
Experimentos
Após treinar nosso modelo, avaliamos seu desempenho em várias tarefas. Essas tarefas incluíram recuperar imagens com base em texto, classificar imagens médicas e responder perguntas sobre imagens médicas.
Recuperação de Imagem-Texto
Nessa tarefa, o modelo trabalha recuperando o texto correto com base em uma imagem de entrada e vice-versa. Nosso modelo mostrou resultados impressionantes, superando vários modelos existentes ao recuperar as informações corretas.
Classificação de Imagens
Também testamos a capacidade do nosso modelo de classificar diferentes tipos de imagens médicas. Ele demonstrou uma forte habilidade em fornecer classificações precisas, mostrando seu potencial para uso em aplicações do mundo real.
Resposta a Perguntas Visuais
Nessa tarefa, o modelo foi testado em sua capacidade de responder perguntas relacionadas a imagens médicas. Ele alcançou alta precisão, provando sua capacidade de entender informações visuais e textuais complexas simultaneamente.
Comparação com Conjuntos de Dados Existentes
Comparámos nosso conjunto de dados e o desempenho do modelo com os conjuntos existentes. Os resultados mostraram que nosso conjunto de dados é maior e mais diversificado, proporcionando uma base melhor para treinar modelos no domínio biomédico.
Visão Geral do Conjunto de Dados
Criamos um conjunto de dados abrangente com procedimentos diagnósticos diversos, cobrindo uma ampla gama de doenças e achados. Esse conjunto não é só maior, mas também mais equilibrado em termos de representação de gênero e idade, que é crucial para resultados de pesquisa justos.
Procedimentos Diagnósticos
Nosso conjunto de dados inclui vários procedimentos diagnósticos, desde os comuns, como tomografias e ressonâncias magnéticas, até condições raras, tornando-se um recurso bem equilibrado para treinar modelos.
Doenças e Achados
Incluímos também uma variedade de doenças, permitindo identificação e análise precisas. Essa rica variedade apoia o treinamento de modelos que podem aprender padrões compartilhados, ajudando no diagnóstico preciso.
Equidade Populacional
Nosso conjunto de dados mantém uma distribuição equilibrada entre diferentes populações, reduzindo o viés em aplicações de aprendizado de máquina. Isso ajuda a construir modelos que generalizam bem entre diferentes grupos.
Conclusão
Neste estudo, apresentamos um grande conjunto de dados biomédicos que facilita o treinamento de modelos avançados de linguagem-imagem. Ao coletar pares de imagem-legenda de documentos científicos extensos, enfrentamos o desafio da escassez de dados no campo biomédico. Nosso modelo demonstrou desempenho de ponta em várias tarefas, destacando a eficácia do nosso conjunto de dados. Esse novo recurso beneficiará pesquisadores e profissionais da medicina, abrindo caminho para futuros desenvolvimentos em aplicações biomédicas de inteligência artificial.
Título: PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical Documents
Resumo: Foundation models trained on large-scale dataset gain a recent surge in CV and NLP. In contrast, development in biomedical domain lags far behind due to data scarcity. To address this issue, we build and release PMC-OA, a biomedical dataset with 1.6M image-caption pairs collected from PubMedCentral's OpenAccess subset, which is 8 times larger than before. PMC-OA covers diverse modalities or diseases, with majority of the image-caption samples aligned at finer-grained level, i.e., subfigure and subcaption. While pretraining a CLIP-style model on PMC-OA, our model named PMC-CLIP achieves state-of-the-art results on various downstream tasks, including image-text retrieval on ROCO, MedMNIST image classification, Medical VQA, i.e. +8.1% R@10 on image-text retrieval, +3.9% accuracy on image classification.
Autores: Weixiong Lin, Ziheng Zhao, Xiaoman Zhang, Chaoyi Wu, Ya Zhang, Yanfeng Wang, Weidi Xie
Última atualização: 2023-03-13 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2303.07240
Fonte PDF: https://arxiv.org/pdf/2303.07240
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.