Olho-Lama: Um Novo Modelo para a Saúde dos Olhos
Apresentando o Eye-Llama, um modelo especializado em dar aquele apoio na saúde dos olhos.
― 6 min ler
Índice
- LLMs na Saúde
- Apresentando o Eye-Llama
- Nosso Conjunto de Dados
- Treinando o Modelo
- Coletando Dados
- Ajustando Dados Supervisionados
- Melhorando Métodos de Treinamento
- Avaliando Nossos Modelos
- Análise de Desempenho
- Ideias sobre Precisão
- Avaliação de Perguntas Abertas
- Resultados Gerais
- Direções Futuras
- Conclusão
- Fonte original
- Ligações de referência
Modelos de linguagem (LLMs) são programas de computador que conseguem gerar textos que parecem ter sido escritos por humanos. Eles impactaram bastante a forma como lidamos com a linguagem, especialmente na saúde. Esses modelos podem ajudar os profissionais de saúde assumindo tarefas simples, o que dá mais tempo pra eles cuidarem dos pacientes. Também podem fornecer informações úteis pros pacientes, ajudando eles a entenderem melhor seus tratamentos e a monitorar sua saúde.
LLMs na Saúde
Na área médica, os pesquisadores estão analisando a eficácia desses modelos de linguagem em responder perguntas, tanto de múltipla escolha quanto questões mais abertas. O ChatGPT é um dos modelos que mostrou bastante habilidade em responder os dois tipos de perguntas. Outro modelo, o Llama 2, também se saiu bem, mesmo sendo menor. O desempenho pode ser ainda melhorado treinando esses modelos com dados médicos mais específicos. Existem modelos como ChatDoctor e BioGPT que foram treinados especificamente com informações médicas pra ajudar em consultas. Porém, ainda há espaço pra melhorias, principalmente em perguntas médicas mais especializadas.
Apresentando o Eye-Llama
Esse estudo é sobre o Eye-Llama, um novo modelo de linguagem treinado especificamente com dados relacionados à saúde ocular. Comparamos o desempenho do Eye-Llama com os modelos existentes que se concentram na saúde geral e em áreas médicas específicas. Estamos compartilhando nosso código e os dados que coletamos pra ajudar outros a continuarem esse trabalho.
Nosso Conjunto de Dados
Criamos um conjunto de dados detalhado sobre saúde ocular, que inclui cerca de 744 mil amostras de resumos de pesquisas, mais de 22 mil amostras de livros didáticos e informações adicionais de sites como EyeWiki e Wikipedia. Nossos dados são bem variados, com cerca de 18 mil pares de perguntas e respostas coletados de Conjuntos de dados médicos e fóruns, além de 15 mil pares criados usando o ChatGPT.
Treinando o Modelo
Pra criar o Eye-Llama, usamos um método de Treinamento em duas etapas no modelo Llama 2. Primeiro, treinamos com uma grande coleção de textos sobre saúde ocular. Na segunda etapa, refinamos usando um conjunto de dados focado de pares de perguntas e respostas. Isso ajudou a criar o Eye-Llama_qa, que foi treinado com 20 mil pares de QA, e o Eye-Llama_gqa, que usou um conjunto de dados ainda maior.
Coletando Dados
Coletamos dados de várias fontes, incluindo cerca de 744 mil resumos sobre saúde ocular do PubMed, que é uma base de dados conhecida de pesquisas médicas. Usando palavras-chave específicas relacionadas à saúde ocular, conseguimos muitos documentos relevantes. Esses dados foram então limpos e organizados em segmentos menores para treinamento.
Ajustando Dados Supervisionados
Selecionamos pares de perguntas e respostas de vários conjuntos de dados médicos pra treinar e aprimorar nosso modelo ainda mais. O processo envolveu escolher dados relevantes que ajudariam a ensinar o modelo a entender e responder melhor perguntas sobre saúde ocular. Combinamos esses dados com as informações previamente coletadas pra criar um conjunto de dados de perguntas e respostas mais extenso conhecido como EYE-QA.
Melhorando Métodos de Treinamento
Pra treinar o Eye-Llama de forma eficiente, usamos um método chamado QLoRA. Essa técnica nos permite reduzir os recursos necessários pro treinamento enquanto ainda alcançamos um bom desempenho. Com esse método, treinamos o modelo em duas GPUs poderosas, o que nos permitiu gerenciar bem o grande número de parâmetros no modelo Llama 2.
Avaliando Nossos Modelos
Testamos o Eye-Llama em vários conjuntos de dados de perguntas e respostas, analisando tanto perguntas de múltipla escolha quanto perguntas abertas. Pra perguntas de múltipla escolha, usamos conjuntos de dados específicos pra medir a Precisão do modelo e sua capacidade de escolher as respostas corretas. As perguntas abertas vieram de inquéritos reais de pacientes, avaliadas pela capacidade do modelo de gerar respostas significativas.
Análise de Desempenho
Nossos modelos foram avaliados em comparação a vários outros modelos, incluindo versões anteriores como ChatGPT e ChatDoctor. Os resultados mostraram que o Eye-Llama_qa se saiu bem nas perguntas de múltipla escolha, e o Eye-Llama_gqa se destacou nas perguntas abertas. Isso indica que o treinamento focado ajudou a melhorar o desempenho em áreas específicas de saúde ocular.
Ideias sobre Precisão
Ao analisar os resultados, notamos que o modelo Eye-Llama inicialmente teve dificuldades com alguns conjuntos de dados. No entanto, através do treinamento direcionado, ele aprendeu a responder melhor perguntas relacionadas à saúde ocular. Em certos testes, o Eye-Llama_qa superou o ChatGPT em precisão em alguns conjuntos de dados.
Avaliação de Perguntas Abertas
Pra avaliar perguntas abertas, utilizamos respostas de um fórum de saúde ocular, onde perguntas reais de pacientes foram comparadas a respostas geradas pelos nossos modelos. Avaliamos quão próximas essas respostas estavam das respostas de especialistas, usando um sistema de pontuação baseado em vários critérios, incluindo alinhamento com o conhecimento científico e presença de informações relevantes.
Resultados Gerais
Ao comparar nossos modelos, encontramos que o Eye-Llama_qa e o Eye-Llama_gqa se saíram melhor do que outros modelos na maioria dos testes. Eles também conseguiram superar o modelo mais geral ChatDoctor em várias categorias, mostrando a eficácia de serem treinados especificamente com dados de saúde ocular.
Direções Futuras
Apesar do nosso sucesso, ainda há áreas pra melhorar. Uma coleção maior de dados supervisionados aumentaria ainda mais a precisão do modelo. Além disso, feedback de mais especialistas em saúde ocular ajudaria a refinar ainda mais as respostas do modelo. Nossa abordagem também poderia ser aplicada a outras áreas médicas, o que pode levar a grandes avanços nessas áreas.
Conclusão
Em conclusão, modelos de linguagem como o Eye-Llama mostram promessas na área médica, potencialmente melhorando o cuidado com os pacientes e ajudando os médicos a gerenciar sua carga de trabalho. À medida que a tecnologia continua a avançar, esses modelos podem ser influentes em muitas aplicações de saúde, ajudando tanto pacientes quanto profissionais a entenderem melhor as situações e tratamentos médicos. Mais pesquisas e desenvolvimentos pavimentarão o caminho pra melhorias ainda mais significativas em resultados de pacientes e na entrega de cuidados de saúde.
Título: EYE-Llama, an in-domain large language model for ophthalmology
Resumo: BackgroundTraining Large Language Models (LLMs) with in-domain data can significantly enhance their performance, leading to more accurate and reliable question-answering (QA) systems essential for supporting clinical decision-making and educating patients. MethodsThis study introduces LLMs trained on in-domain, well-curated ophthalmic datasets. We also present an open-source substantial ophthalmic language dataset for model training. Our LLMs (EYE-Llama), first pre-trained on an ophthalmology-specific dataset, including paper abstracts, textbooks, EyeWiki, and Wikipedia articles. Subsequently, the models underwent fine-tuning using a diverse range of QA datasets. The LLMs at each stage were then compared to baseline Llama 2, ChatDoctor, and ChatGPT (GPT3.5) models, using four distinct test sets, and evaluated quantitatively (Accuracy, F1 score, and BERTScore) and qualitatively by two ophthalmologists. ResultsUpon evaluating the models using the American Academy of Ophthalmology (AAO) test set and BERTScore as the metric, our models surpassed both Llama 2 and ChatDoctor in terms of F1 score and performed equally to ChatGPT, which was trained with 175 billion parameters (EYE-Llama: 0.57, Llama 2: 0.56, ChatDoctor: 0.56, and ChatGPT: 0.57). When evaluated on the MedMCQA test set, the fine-tuned models demonstrated a higher accuracy compared to the Llama 2 and ChatDoctor models (EYE-Llama: 0.39, Llama 2: 0.33, ChatDoctor: 0.29). However, ChatGPT outperformed EYE-Llama with an accuracy of 0.55. When tested with the PubmedQA set, the fine-tuned model showed improvement in accuracy over both the Llama 2, ChatGPT, and ChatDoctor models (EYE-Llama: 0.96, Llama 2: 0.90, ChatGPT: 0.93, ChatDoctor: 0.92). ConclusionThe study shows that pre-training and fine-tuning LLMs like EYE-Llama enhances their performance in specific medical domains. Our EYE-Llama models surpass baseline Llama 2 in all evaluations, highlighting the effectiveness of specialized LLMs in medical QA systems. (Funded by NEI R15EY035804 (MNA) and UNC Charlotte Faculty Research Grant (MNA).)
Autores: Minhaj Nur Alam, t. haghighi, S. Gholami, J. T. Sokol, E. Kishnani, A. Ahsaniyan, H. Rahmanian, F. Hedayati, T. Leng
Última atualização: 2024-04-29 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2024.04.26.591355
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.04.26.591355.full.pdf
Licença: https://creativecommons.org/licenses/by-nc/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.