Simple Science

Ciência de ponta explicada de forma simples

# Ciências da saúde# Informatica sanitaria

Modelos de Linguagem Grandes na Detecção de Doença de Alzheimer

Pesquisas mostram que LLMs melhoram a extração de informações no cuidado de Alzheimer.

― 6 min ler


LLMs na Detecção deLLMs na Detecção deAlzheimerprecisão do diagnóstico de Alzheimer.Os LLMs mostram potencial em melhorar a
Índice

Modelos de linguagem grandes (LLMs) são ferramentas que usam tecnologia avançada pra ler e entender textos. Eles fazem várias coisas, tipo responder perguntas e dar conselhos. Na área da saúde, esses modelos tão sendo usados pra ajudar no raciocínio clínico e já mostraram que conseguem até passar em exames médicos. Tem um grande interesse em usar LLMs pra extrair informações importantes de anotações clínicas, especialmente relacionadas a doenças como a Doença de Alzheimer.

Por que usar LLMs na saúde?

Na saúde, coletar a informação certa é essencial pra cuidar dos pacientes. Uma área específica onde os LLMs podem ajudar é na identificação de problemas relacionados à memória, especialmente sintomas ligados à Doença de Alzheimer e condições relacionadas. Essas doenças costumam ser diagnosticadas tarde, principalmente em grupos minoritários, tornando importante pegá-las cedo. Quando os LLMs são usados pra analisar anotações clínicas, eles ajudam a identificar os resultados de testes cognitivos, que são cruciais pra detecção precoce.

O foco do estudo

Esse estudo analisou dois LLMs avançados, especificamente o ChatGPT e o LlaMA-2. O objetivo era ver como esses modelos conseguiam extrair informações sobre testes cognitivos, como o Mini-Mental State Examination (MMSE) e o Clinical Dementia Rating (CDR), a partir de anotações clínicas. Os pesquisadores queriam reunir detalhes, incluindo os resultados desses testes e as datas em que foram realizados.

Metodologia

Pra realizar esse estudo, um grande número de anotações clínicas foi coletado, totalizando mais de 135.000. Essas anotações vieram de vários ambientes, como visitas a hospitais e consultas médicas, de janeiro de 2010 até maio de 2023. As anotações foram filtradas pra focar apenas naquelas que mencionavam MMSE ou CDR, reduzindo pra mais de 34.000 anotações.

Os pesquisadores selecionaram uma amostra aleatória de 765 anotações pra análise. Desses, algumas foram enviadas pra revisores especialistas que checaram as informações extraídas em relação ao que estava nas anotações pra garantir precisão. O objetivo era comparar o desempenho do ChatGPT e do LlaMA-2 em extrair os dados relevantes corretamente.

Usando os modelos

Tanto o ChatGPT quanto o LlaMA-2 foram usados pra processar essas anotações clínicas. Antes de rodar os modelos, as anotações foram preparadas em um formato de texto mais simples pra evitar confusão durante o processamento.

O ChatGPT examinou as anotações selecionadas pra encontrar todas as instâncias dos testes cognitivos junto com suas respectivas datas. Depois dessa análise, algumas anotações tiveram erros durante o processamento, mas a maioria foi analisada com sucesso.

O LlaMA-2 também processou as anotações que o ChatGPT tinha lidado com sucesso. Ambos os modelos tinham como objetivo encontrar os resultados dos testes e as datas de forma precisa, que era o foco principal da avaliação.

O processo de avaliação

Um grupo de 22 especialistas médicos treinados revisou os resultados do ChatGPT e do LlaMA-2. Eles avaliaram a precisão e a completude das respostas fornecidas pelos modelos. Cada especialista recebeu um lote de anotações clínicas pra avaliar, e algumas anotações foram revisadas por mais de um especialista pra garantir confiabilidade. O objetivo era verificar quão bem cada modelo se saiu em gerar respostas corretas e completas.

Os especialistas usaram um sistema simples de sim/não pra julgar se a informação extraída pelos modelos estava correta. O foco era avaliar a precisão dos resultados de MMSE e CDR junto com suas datas.

Resultados do estudo

O estudo revelou que o ChatGPT teve um desempenho muito bom no geral em extrair as informações necessárias. Para o MMSE, a precisão foi de cerca de 83%, enquanto para o CDR, foi em torno de 89%. O modelo mostrou uma alta taxa de verdadeiro negativo, o que significa que quando ele dizia que não havia pontuação, estava certo na maioria das vezes.

Porém, houve alguns desafios. Enquanto o ChatGPT era bom em encontrar pontuações do MMSE, às vezes cometia erros ao identificar os resultados do CDR, misturando-os com outros testes. O LlaMA-2, por outro lado, não se saiu tão bem no geral, apresentando menor precisão em todas as áreas.

Acordo entre os especialistas

Os revisores mostraram um bom nível de concordância em suas avaliações, sugerindo que os resultados eram confiáveis. Eles acharam que as respostas do ChatGPT eram em sua maioria corretas e completas, o que apoia a ideia de que os LLMs podem ser ferramentas valiosas em ambientes clínicos.

Implicações para a saúde

Usar LLMs pra extrair informações clínicas pode melhorar muito como os dados são tratados em ambientes de saúde. Eles podem agilizar o processo de coleta de detalhes importantes dos pacientes, ajudando com diagnósticos e tratamentos precoces de doenças como Alzheimer. Isso pode levar a melhores resultados pra os pacientes e uso mais eficiente dos recursos de saúde.

Considerações finais

A pesquisa destaca o potencial dos LLMs em apoiar profissionais de saúde extraindo informações vitais de anotações clínicas. O ChatGPT e o LlaMA-2 mostraram resultados promissores, especialmente o ChatGPT em interpretar corretamente os resultados do MMSE.

O estudo indica que com mais aperfeiçoamento em como esses modelos são acionados e combinados com métodos de processamento tradicionais, eles poderiam se tornar ainda mais eficazes. Isso poderia ter um grande impacto na saúde, oferecendo uma nova abordagem para gerenciar e utilizar dados clínicos.

Direções futuras

Os pesquisadores planejam continuar usando esse estudo como um benchmark pra avaliar outros modelos de linguagem no futuro. Além disso, vão explorar a aplicação das mesmas técnicas em várias áreas da saúde pra avaliar quais usos são mais eficazes. As descobertas sugerem que mais desenvolvimento e validação de ferramentas de IA na saúde poderiam levar a um melhor atendimento ao paciente e sistemas de saúde mais eficientes.

Fonte original

Título: Evaluating Large Language Models in Extracting Cognitive Exam Dates and Scores

Resumo: ImportanceLarge language models (LLMs) are crucial for medical tasks. Ensuring their reliability is vital to avoid false results. Our study assesses two state-of-the-art LLMs (ChatGPT and LlaMA-2) for extracting clinical information, focusing on cognitive tests like MMSE and CDR. ObjectiveEvaluate ChatGPT and LlaMA-2 performance in extracting MMSE and CDR scores, including their associated dates. MethodsOur data consisted of 135,307 clinical notes (Jan 12th, 2010 to May 24th, 2023) mentioning MMSE, CDR, or MoCA. After applying inclusion criteria 34,465 notes remained, of which 765 underwent ChatGPT (GPT-4) and LlaMA-2, and 22 experts reviewed the responses. ChatGPT successfully extracted MMSE and CDR instances with dates from 742 notes. We used 20 notes for fine-tuning and training the reviewers. The remaining 722 were assigned to reviewers, with 309 each assigned to two reviewers simultaneously. Inter-rater-agreement (Fleiss Kappa), precision, recall, true/false negative rates, and accuracy were calculated. Our study follows TRIPOD reporting guidelines for model validation. ResultsFor MMSE information extraction, ChatGPT (vs. LlaMA-2) achieved accuracy of 83% (vs. 66.4%), sensitivity of 89.7% (vs. 69.9%), true-negative rates of 96% (vs 60.0%), and precision of 82.7% (vs 62.2%). For CDR the results were lower overall, with accuracy of 87.1% (vs. 74.5%), sensitivity of 84.3% (vs. 39.7%), true-negative rates of 99.8% (98.4%), and precision of 48.3% (vs. 16.1%). We qualitatively evaluated the MMSE errors of ChatGPT and LlaMA-2 on double-reviewed notes. LlaMA-2 errors included 27 cases of total hallucination, 19 cases of reporting other scores instead of MMSE, 25 missed scores, and 23 cases of reporting only the wrong date. In comparison, ChatGPTs errors included only 3 cases of total hallucination, 17 cases of wrong test reported instead of MMSE, and 19 cases of reporting a wrong date. ConclusionsIn this diagnostic/prognostic study of ChatGPT and LlaMA-2 for extracting cognitive exam dates and scores from clinical notes, ChatGPT exhibited high accuracy, with better performance compared to LlaMA-2. The use of LLMs could benefit dementia research and clinical care, by identifying eligible patients for treatments initialization or clinical trial enrollments. Rigorous evaluation of LLMs is crucial to understanding their capabilities and limitations.

Autores: Narges Razavian, H. Zhang, N. Jethani, S. Jones, N. Genes, V. J. Major, I. S. Jaffe, A. B. Cardillo, N. Heilenbach, N. F. Ali, L. J. Bonanni, A. J. Clayburn, Z. Khera, E. C. Sadler, J. Prasad, J. Schlacter, K. Liu, B. Silva, S. Montgomery, E. J. Kim, J. Lester, T. M. Hill, A. Avoricani, E. Chervonski, J. Davydov, W. Small, E. Chakravartty, H. Grover, J. A. Dodson, A. A. Brody, Y. Aphinyanaphongs, A. V. Masurkar

Última atualização: 2024-02-13 00:00:00

Idioma: English

Fonte URL: https://www.medrxiv.org/content/10.1101/2023.07.10.23292373

Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.07.10.23292373.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes