Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial# Aprendizagem de máquinas

Apresentando o BioMistral: Um Novo Modelo de Linguagem Médica

A BioMistral quer avançar o processamento de linguagem na área da saúde com tecnologia de código aberto.

― 9 min ler


BioMistral 7B: IA MédicaBioMistral 7B: IA MédicaLiberadao processamento de linguagem na saúde.Um novo modelo de código aberto melhora
Índice

Modelos de linguagem, que são programas de computador que conseguem entender e produzir linguagem humana, estão se tornando super importantes em áreas como a saúde. Recentemente, muitos modelos foram desenvolvidos que são de código aberto, o que significa que qualquer um pode usá-los de graça. Esses modelos podem ajudar em várias áreas, incluindo medicina. Mas pegar um modelo de linguagem geral e fazer ele funcionar bem em contextos médicos não é fácil.

Neste artigo, a gente apresenta o BioMistral, um modelo de linguagem de código aberto especificamente criado para a área médica. O BioMistral é baseado no Mistral, outro modelo de linguagem, e foi treinado usando uma grande coleção de artigos médicos do PubMed Central. Nós testamos o BioMistral em um conjunto de dez tarefas padrão de perguntas e respostas médicas em inglês. Também analisamos modelos menores que poderiam funcionar em dispositivos mais simples. Nossos achados mostram que o BioMistral se sai melhor do que outros modelos médicos gratuitos e é competitivo com modelos pagos. Além disso, traduzimos as tarefas de avaliação para mais sete idiomas para ver como o BioMistral pode se sair em diferentes línguas.

O Papel dos Modelos de Linguagem na Saúde

Modelos de linguagem estão mudando a forma como nos comunicamos com computadores. Eles conseguem entender e responder a pedidos complexos, tornando-se úteis em várias tarefas. Com o surgimento de modelos como ChatGPT e Vicuna, a interação entre humanos e máquinas ficou mais natural.

O desenvolvimento de modelos de código aberto como o BLOOM e LLaMA mostra que essas ferramentas podem ser úteis em áreas especializadas como a saúde. Porém, usar esses modelos em ambientes médicos traz seus próprios desafios. Enquanto alguns modelos já começaram a ser usados na saúde, existem preocupações sobre a privacidade dos dados com modelos proprietários como MedPaLM-2 e GPT-4.

O interesse em modelos de linguagem especializados para a saúde gerou novas iniciativas, mas a adoção de modelos médicos gratuitos tem sido limitada. Uma das principais razões é a falta de modelos menores que possam ser usados comercialmente enquanto ainda apresentam um bom desempenho. Isso cria a necessidade de modelos que sejam baseados em frameworks de código aberto, mas otimizados para dispositivos comuns sem perder desempenho.

Apresentando o BioMistral 7B

O BioMistral 7B foi projetado especificamente para a área médica. Ele é baseado no modelo Mistral 7B Instruct e foi treinado usando recursos do PubMed Central. Aqui estão algumas contribuições chave do nosso trabalho:

  1. Construção do BioMistral 7B: Criamos o primeiro modelo de código aberto baseado no Mistral que é voltado para a área médica. Revisamos diferentes métodos de avaliação, incluindo o uso de poucos exemplos para treinamento e ajustes supervisionados.

  2. Novo Benchmark de Perguntas e Respostas Médicas: Introduzimos um conjunto de tarefas de perguntas e respostas médicas em inglês, que foram traduzidas para outras línguas. Isso facilita ver como o modelo se sai e como pode ser usado em diferentes contextos linguísticos.

  3. Análise Profunda: Realizamos uma análise abrangente de quão verdadeiro e confiável o modelo é quando usado em várias línguas.

  4. Modelos Leves: Avaliamos modelos menores que resultam de diferentes métodos de quantização e fusão de modelos existentes.

  5. Novas Técnicas de Fusão: Exploramos novas formas de combinar diferentes modelos para melhorar seu desempenho.

Todos os dados, benchmarks multilíngues e modelos estão abertamente disponíveis para todos usarem.

Pré-treinamento com Dados Médicos

Para adaptar modelos de linguagem para a medicina, escolhemos o Conjunto de Acesso Aberto do PMC, que contém uma ampla gama de artigos de pesquisa médica disponíveis gratuitamente. Essa escolha foi inspirada por projetos anteriores que mostraram como usar uma grande coleção de pesquisas médicas pode melhorar o desempenho de um modelo em tarefas médicas.

Durante a fase de preparação, focamos em tornar o conjunto de dados eficiente para treinamento enquanto consideramos os limites de hardware. Nosso objetivo era treinar o Mistral usando uma parte desse conjunto de dados, visando um número específico de passagens sobre os dados dentro do tempo permitido dos recursos computacionais que tínhamos. Selecionamos cerca de 3 bilhões de tokens, ou pedaços de texto, desse conjunto de dados pré-processado, que totalizou aproximadamente 1,47 milhões de artigos.

A maior parte desse conjunto de dados está em inglês, mas também incluímos artigos em outras línguas como holandês, alemão e francês. Ao focar nessa abordagem multilíngue, nosso objetivo era criar um conjunto de dados de treinamento que cobre um conjunto diversificado de conhecimentos médicos.

Como Treinamos o Modelo

Usamos o modelo Mistral 7B Instruct como base para nosso treinamento. Esse modelo é projetado para lidar com tarefas que exigem instrução e pode ser ajustado para várias aplicações. Nosso treinamento envolveu definir parâmetros específicos, como o método de otimização usado, a taxa de aprendizado e o tamanho do lote.

Para ajudar na eficiência, usamos um método que agrupa tokens de uma forma que reduz o número de sequências que o modelo precisa processar, acelerando o tempo de treinamento.

Avaliação do Modelo

Para avaliar o BioMistral 7B, escolhemos dez tarefas de perguntas e respostas relacionadas ao conhecimento médico. Essas tarefas cobrem diferentes especialidades médicas e apresentam cenários do mundo real enfrentados por profissionais da área.

Também fizemos uma avaliação multilíngue traduzindo nossas tarefas para várias línguas. Isso nos permite ver como o BioMistral se sai fora de contextos de fala inglesa. Realizamos vários testes para ver o quão precisas eram as respostas do modelo para cada tarefa.

Resultados e Descobertas

Nossa avaliação mostrou que o BioMistral 7B se sai melhor do que o modelo original Mistral 7B Instruct na maioria das tarefas. No teste de poucos exemplos, o BioMistral 7B foi melhor do que outros modelos médicos gratuitos em quase todas as áreas. Por exemplo, melhorou o desempenho em conjuntos de dados relacionados a conhecimento clínico, genética e exames médicos.

No entanto, houve algumas situações em que ele não se saiu tão bem, especialmente no PubMedQA, onde teve dificuldades por causa de desequilíbrios nas informações fornecidas.

Quando olhamos para Modelos Quantizados, notamos que diferentes métodos de redução do tamanho do modelo tiveram impactos diferentes no desempenho. Alguns reduziram a precisão, enquanto outros ajudaram a manter ou até melhorar.

Desempenho Multilíngue

Nós também verificamos quão bem o BioMistral 7B funciona em outras línguas além do inglês. Apesar de ter havido uma queda no desempenho em geral, isso provavelmente se deve à qualidade da tradução. Mesmo assim, ele ainda se saiu competitivamente com outros modelos.

Ao olhar para línguas específicas, encontramos que o BioMistral teve resultados melhores em algumas línguas do que em outras, indicando que há espaço para melhorias na forma como ele se adapta a diferentes contextos linguísticos.

Calibração e Veracidade

É importante que qualquer modelo de linguagem represente informações de forma confiável e seu nível de certeza sobre suas respostas. Avaliamos quão bem o BioMistral alinha suas previsões com resultados do mundo real. Nossa análise mostrou que o BioMistral geralmente é bom em fornecer saídas verdadeiras, especialmente em tópicos relacionados à saúde.

No entanto, também encontramos áreas onde o modelo pode ser melhorado. Por exemplo, quando fornecemos prompts indicando que a veracidade estava sendo testada, o desempenho melhorou, mas quando usado em configurações mais relaxadas, o desempenho caiu.

Conclusão e Trabalho Futuro

Desenvolvemos o BioMistral 7B como um modelo de linguagem especializado para tarefas médicas. Ao treinar ainda mais um modelo existente com dados médicos de alta qualidade, mostramos que ele pode alcançar um desempenho de ponta em vários benchmarks, incluindo aqueles em diferentes línguas.

No futuro, planejamos avaliar a qualidade do conteúdo que o BioMistral gera através de avaliações diretas de humanos. Além disso, vamos trabalhar para melhorar suas capacidades multilíngues e aumentar sua confiabilidade e precisão.

Esse projeto exigiu recursos computacionais significativos e apoio financeiro, então reconhecemos que empreendimentos semelhantes no futuro podem precisar de um planejamento cuidadoso e consideração dos recursos disponíveis. Também notamos que o BioMistral 7B é melhor utilizado como uma ferramenta de pesquisa e não para aplicações médicas diretas sem uma avaliação adicional em ambientes clínicos.

Ao continuar a trabalhar para garantir que o BioMistral seja uma ferramenta confiável e eficaz para aplicações médicas, esperamos enfrentar os muitos desafios que vêm com o uso de modelos de linguagem na saúde.

A necessidade de uma avaliação mais profunda de modelos de linguagem em diferentes domínios persiste, especialmente em relação à sua capacidade de lidar com conteúdo sensível de forma responsável. Avançando, pretendemos realizar investigações mais profundas em aspectos como ética, preconceitos e o potencial para gerar conteúdo prejudicial.

Focando nessas áreas, aspiramos criar modelos de linguagem que não apenas se destaquem em entender e gerar linguagem humana, mas que também estejam alinhados com padrões éticos enquanto servem a vários campos, especialmente a saúde.

Fonte original

Título: BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains

Resumo: Large Language Models (LLMs) have demonstrated remarkable versatility in recent years, offering potential applications across specialized domains such as healthcare and medicine. Despite the availability of various open-source LLMs tailored for health contexts, adapting general-purpose LLMs to the medical domain presents significant challenges. In this paper, we introduce BioMistral, an open-source LLM tailored for the biomedical domain, utilizing Mistral as its foundation model and further pre-trained on PubMed Central. We conduct a comprehensive evaluation of BioMistral on a benchmark comprising 10 established medical question-answering (QA) tasks in English. We also explore lightweight models obtained through quantization and model merging approaches. Our results demonstrate BioMistral's superior performance compared to existing open-source medical models and its competitive edge against proprietary counterparts. Finally, to address the limited availability of data beyond English and to assess the multilingual generalization of medical LLMs, we automatically translated and evaluated this benchmark into 7 other languages. This marks the first large-scale multilingual evaluation of LLMs in the medical domain. Datasets, multilingual evaluation benchmarks, scripts, and all the models obtained during our experiments are freely released.

Autores: Yanis Labrak, Adrien Bazoge, Emmanuel Morin, Pierre-Antoine Gourraud, Mickael Rouvier, Richard Dufour

Última atualização: 2024-07-17 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2402.10373

Fonte PDF: https://arxiv.org/pdf/2402.10373

Licença: https://creativecommons.org/publicdomain/zero/1.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes