Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Computação e linguagem# Aprendizagem de máquinas# Multimédia

Avançando a IA Biomédica com Novo Conjunto de Dados

Um novo conjunto de dados preenche a lacuna na pesquisa de IA biomédica.

― 6 min ler


Dataset de IA BiomédicaDataset de IA BiomédicaLiberadopesquisa biomédica.Novo conjunto de dados impulsiona IA na
Índice

Avanços recentes em inteligência artificial levaram ao desenvolvimento de grandes modelos que analisam texto e imagens. No entanto, esse progresso não foi igual no campo biomédico. Uma das grandes razões para essa diferença é a quantidade limitada de dados disponíveis para treinar esses modelos. Para resolver isso, criamos um novo conjunto de dados que contém um grande número de pares de imagem e legenda de documentos Biomédicos. Esse conjunto é oito vezes maior do que qualquer outro usado anteriormente nessa área.

Contexto

Nos modelos de inteligência artificial, os modelos fundamentais são essenciais. Esses modelos aprendem com uma ampla gama de dados para ajudar em várias tarefas. A maior parte do crescimento significativo foi vista em áreas gerais, como visão computacional e processamento de linguagem natural. No entanto, quando se trata de medicina e biologia, criar Conjuntos de dados é mais desafiador por causa da necessidade de conhecimento especializado e preocupações com a privacidade dos pacientes.

Para melhorar essa situação, focamos em construir um conjunto de dados biomédicos de alta qualidade. Coletamos dados de artigos científicos disponíveis publicamente, extraindo especificamente imagens e suas legendas. Usando recursos como o PubMed Central, garantimos que o conteúdo seja confiável e bem revisado.

Criação do Conjunto de Dados

Nosso conjunto de dados inclui 1,6 milhão de pares de imagem e legenda. Esses pares foram coletados da literatura científica onde figuras e legendas estão prontamente disponíveis. O processo envolveu três etapas principais: coletar figuras médicas, separar subfiguras e alinhar legendas com essas figuras.

Coletando Figuras Médicas

Na etapa inicial, extraímos figuras e legendas de artigos científicos. Em setembro de 2022, havíamos processado mais de 2,4 milhões de artigos, resultando em mais de 12 milhões de pares de figura-legenda. Para identificar figuras médicas relevantes, usamos um método de filtragem por palavras-chave para selecionar aquelas relacionadas a vários tópicos médicos. Após a filtragem, classificamos essas figuras em diferentes categorias, identificando, no total, 381.096 figuras médicas.

Separando Sub-Figuras

Um número significativo de figuras contém múltiplos painéis ou partes, conhecidos como figuras compostas. Nossa próxima etapa foi separar essas figuras compostas em subfiguras individuais. Treinamos um modelo para detectar essas subfiguras, alcançando alta precisão na classificação. Após o processamento, acabamos com cerca de 1,6 milhão de subfiguras, cada uma ligada às legendas originais.

Alinhando Legendas

Para criar conexões significativas entre subfiguras e suas respectivas legendas, precisávamos separar essas legendas em partes menores. Usamos uma ferramenta projetada para esse propósito e alinhamos subfiguras com suas legendas correspondentes. No final desse processo, conseguimos formar um conjunto de dados com mais de 1 milhão de pares alinhados.

Treinamento do Modelo

Com o conjunto de dados preparado, passamos para o treinamento de um modelo projetado para conectar imagens e texto. Esse modelo, baseado em arquiteturas existentes, foi treinado usando um método que incentiva o modelo a aprender as relações entre as imagens e seu texto correspondente.

Objetivos de Treinamento

Empregamos dois principais objetivos de treinamento: aprendizado contrastivo de imagem-texto e modelagem de linguagem mascarada. O primeiro objetivo ajuda a garantir que as imagens e suas representações textuais pareadas estejam intimamente ligadas na compreensão do modelo. A segunda tarefa envolve prever palavras faltantes nas legendas, fornecendo um contexto adicional ao modelo sobre o texto.

Experimentos

Após treinar nosso modelo, avaliamos seu desempenho em várias tarefas. Essas tarefas incluíram recuperar imagens com base em texto, classificar imagens médicas e responder perguntas sobre imagens médicas.

Recuperação de Imagem-Texto

Nessa tarefa, o modelo trabalha recuperando o texto correto com base em uma imagem de entrada e vice-versa. Nosso modelo mostrou resultados impressionantes, superando vários modelos existentes ao recuperar as informações corretas.

Classificação de Imagens

Também testamos a capacidade do nosso modelo de classificar diferentes tipos de imagens médicas. Ele demonstrou uma forte habilidade em fornecer classificações precisas, mostrando seu potencial para uso em aplicações do mundo real.

Resposta a Perguntas Visuais

Nessa tarefa, o modelo foi testado em sua capacidade de responder perguntas relacionadas a imagens médicas. Ele alcançou alta precisão, provando sua capacidade de entender informações visuais e textuais complexas simultaneamente.

Comparação com Conjuntos de Dados Existentes

Comparámos nosso conjunto de dados e o desempenho do modelo com os conjuntos existentes. Os resultados mostraram que nosso conjunto de dados é maior e mais diversificado, proporcionando uma base melhor para treinar modelos no domínio biomédico.

Visão Geral do Conjunto de Dados

Criamos um conjunto de dados abrangente com procedimentos diagnósticos diversos, cobrindo uma ampla gama de doenças e achados. Esse conjunto não é só maior, mas também mais equilibrado em termos de representação de gênero e idade, que é crucial para resultados de pesquisa justos.

Procedimentos Diagnósticos

Nosso conjunto de dados inclui vários procedimentos diagnósticos, desde os comuns, como tomografias e ressonâncias magnéticas, até condições raras, tornando-se um recurso bem equilibrado para treinar modelos.

Doenças e Achados

Incluímos também uma variedade de doenças, permitindo identificação e análise precisas. Essa rica variedade apoia o treinamento de modelos que podem aprender padrões compartilhados, ajudando no diagnóstico preciso.

Equidade Populacional

Nosso conjunto de dados mantém uma distribuição equilibrada entre diferentes populações, reduzindo o viés em aplicações de aprendizado de máquina. Isso ajuda a construir modelos que generalizam bem entre diferentes grupos.

Conclusão

Neste estudo, apresentamos um grande conjunto de dados biomédicos que facilita o treinamento de modelos avançados de linguagem-imagem. Ao coletar pares de imagem-legenda de documentos científicos extensos, enfrentamos o desafio da escassez de dados no campo biomédico. Nosso modelo demonstrou desempenho de ponta em várias tarefas, destacando a eficácia do nosso conjunto de dados. Esse novo recurso beneficiará pesquisadores e profissionais da medicina, abrindo caminho para futuros desenvolvimentos em aplicações biomédicas de inteligência artificial.

Mais de autores

Artigos semelhantes