Simple Science

Ciência de ponta explicada de forma simples

# Ciências da saúde# Informatica sanitaria

Usando IA pra Melhorar o Fenotipagem de Pacientes

Pesquisadores exploram LLMs pra melhorar a fenotipagem de EHRs para condições de saúde.

― 6 min ler


IA na Fenotipagem de EHRIA na Fenotipagem de EHRalgoritmos para condições de saúde.Os LLMs podem ajudar a desenvolver
Índice

Registros Eletrônicos de Saúde (RES) são versões digitais dos prontuários em papel dos pacientes. Um aspecto chave dos RES é o Fenotipagem, que é o processo de identificar pacientes com base nas características observáveis usando dados desses registros. Essa informação é crucial para pesquisas ligadas à saúde e à medicina.

A fenotipagem exige a criação de Algoritmos complexos que podem classificar com precisão as informações dos pacientes. Esses algoritmos ajudam os pesquisadores a identificar pacientes com Condições de Saúde específicas e também ajudam a selecionar grupos de controle adequados para comparações significativas. No entanto, criar fenótipos eficazes em RES é um processo demorado que exige muita experiência em medicina clínica e gerenciamento de dados.

Abordagens Atuais para Fenotipagem

Existem diferentes métodos para desenvolver algoritmos de fenotipagem. Uma abordagem se baseia em regras definidas por especialistas clínicos que escolhem critérios específicos, como códigos de diagnóstico, medicamentos e exames laboratoriais, para definir o fenótipo de interesse. Esses algoritmos geralmente têm um desempenho melhor quando são refinados e validados com cuidado, em comparação com métodos automatizados que usam aprendizado de máquina. Contudo, a natureza detalhada desse processo limita a rapidez com que pode ser implementado em maior escala.

Além disso, quando esses algoritmos são usados por diferentes sistemas de saúde, muitas vezes exigem ajustes extras para se adaptarem a diferentes bancos de dados e sistemas de RES, aumentando a carga de trabalho.

O Papel dos Modelos de Linguagem Grande (MLG)

Recentemente, pesquisadores começaram a explorar o uso de modelos de linguagem grande (MLG), que são ferramentas de IA avançadas capazes de processar e gerar texto semelhante ao humano. Esses modelos mostraram promessa em extrair informações e resumir conteúdo, o que poderia ser útil na fenotipagem acelerando o processo de revisão da literatura.

Estudos focaram em como os MLGs podem extrair informações fenotípicas de anotações clínicas não estruturadas. Por exemplo, um estudo descobriu que um modelo específico de código aberto podia extrair conceitos relevantes de resumos de alta relacionados a uma condição médica conhecida como hemorragia pós-parto.

O Estudo

Nesse estudo, os pesquisadores testaram se os MLGs poderiam ajudar a criar algoritmos para três condições de saúde comuns: diabetes tipo 2, demência e hipotireoidismo. Eles analisaram quatro MLGs: GPT-4, GPT-3.5, Claude 2 e Bard.

Os MLGs foram avaliados com base em quão bem podiam gerar algoritmos projetados para identificar casos dessas condições dentro dos dados estruturados de RES. Os pesquisadores criaram um fluxo de trabalho para o estudo que incluiu duas partes principais: solicitar aos modelos que produzissem algoritmos e, em seguida, avaliar a qualidade desses algoritmos.

Solicitando os MLGs

Para começar, os pesquisadores pediram aos MLGs para gerar consultas SQL, uma linguagem de programação usada para interagir com bancos de dados. Eles focaram especificamente em usar códigos para diagnósticos e exames laboratoriais relevantes para cada fenótipo.

Eles usaram duas estratégias para solicitar aos modelos: α-solicitação e β-solicitação. A α-solicitação envolveu criar uma versão inicial do algoritmo e depois convertê-la em uma consulta SQL funcional. A β-solicitação envolveu pegar as consultas SQL iniciais e pedir aos modelos que avaliassem sua qualidade, iterando sobre os resultados anteriores para melhorá-los.

Avaliando os Algoritmos

Para avaliar os algoritmos produzidos, especialistas clínicos os revisaram com base em três critérios:

  1. Quão bem o MLG seguiu as instruções de solicitação.
  2. A capacidade do MLG de sintetizar informações relevantes em um algoritmo coerente.
  3. A eficácia do algoritmo em ser apresentado de uma forma que pudesse ser executada em um banco de dados.

Após a avaliação, os pesquisadores compararam os algoritmos gerados pelos MLGs com algoritmos estabelecidos reconhecidos pela comunidade de saúde. Eles analisaram como bem os conceitos nos algoritmos dos MLGs correspondem aos de algoritmos previamente validados.

Resultados do Estudo

O estudo descobriu que o GPT-4 e o GPT-3.5 performaram significativamente melhor que o Claude 2 e o Bard ao produzir algoritmos utilizáveis. A principal razão para essa diferença foi a capacidade dos modelos GPT de especificar quais critérios clínicos eram necessários, enquanto os outros modelos frequentemente apresentaram conceitos incorretos ou até falharam em seguir a estrutura necessária.

Tanto o GPT-4 quanto o GPT-3.5 foram considerados capazes de gerar algoritmos que incluíam códigos de diagnóstico relevantes, exames laboratoriais e medicamentos. Eles eram geralmente precisos, mas também incluíam alguns critérios incorretos, o que é uma preocupação para o uso prático.

Observações Chave

Para diabetes tipo 2, ambos os modelos identificaram os códigos e exames laboratoriais relevantes associados à condição. No entanto, eles se esqueceram de alguns medicamentos importantes e tiveram algumas imprecisões nos critérios que usaram.

Para demência, ambos os modelos incluíram códigos diagnósticos relevantes e sintomas, mas não se alinharam completamente com os padrões estabelecidos. Eles também incluíram medicamentos que não faziam parte dos algoritmos previamente validados.

No hipotireoidismo, os modelos identificaram corretamente vários códigos de diagnóstico e exames, mas diferiram no número de medicamentos e critérios que usaram em comparação com o algoritmo estabelecido.

Implementação e Avaliação Prática

Os algoritmos criados pelos MLGs foram testados em um grande conjunto de dados em um cenário real de saúde. Embora os algoritmos do GPT-4 e GPT-3.5 tenham se saído bem, alguns precisaram de ajustes para funcionar corretamente na prática. Alguns modelos lidaram mal com os dados de maneiras que dificultaram a identificação correta dos pacientes.

O desempenho dos algoritmos foi medido usando métricas como valor preditivo positivo e sensibilidade, que indicam quão precisamente os algoritmos identificaram casos e quantos casos eles perderam.

Conclusão

O estudo concluiu que MLGs como GPT-4 e GPT-3.5 têm o potencial de ajudar a criar rascunhos iniciais de algoritmos para identificar condições de saúde com base em RES. Esses modelos podem identificar critérios clínicos relevantes e podem reduzir significativamente o tempo que os especialistas dedicam à revisão da literatura e síntese de dados.

No entanto, apesar desses resultados promissores, a experiência em medicina clínica e gerenciamento de dados ainda é essencial para revisar e melhorar os algoritmos produzidos pelos MLGs. Atualmente, os modelos não conseguem criar algoritmos prontos para uso sem um refinamento adicional.

No futuro, os pesquisadores pretendem explorar mais capacidades dos MLGs e como eles poderiam ser ajustados para um desempenho ainda melhor. Também há interesse em examinar sua eficácia em gerar algoritmos para identificar controles, não apenas casos, e expandir o estudo para incluir uma variedade maior de doenças e cenários.

De modo geral, embora os MLGs mostrem potencial em acelerar o processo de fenotipagem em RES, uma colaboração entre ferramentas de IA e expertise humana continua sendo essencial para o sucesso nesta área.

Fonte original

Título: Large Language Models Facilitate the Generation of Electronic Health Record Phenotyping Algorithms

Resumo: ObjectivesPhenotyping is a core task in observational health research utilizing electronic health records (EHRs). Developing an accurate algorithm demands substantial input from domain experts, involving extensive literature review and evidence synthesis. This burdensome process limits scalability and delays knowledge discovery. We investigate the potential for leveraging large language models (LLMs) to enhance the efficiency of EHR phenotyping by generating high-quality algorithm drafts. Materials and MethodsWe prompted four LLMs--GPT-4 and GPT-3.5 of ChatGPT, Claude 2, and Bard--in October 2023, asking them to generate executable phenotyping algorithms in the form of SQL queries adhering to a common data model (CDM) for three phenotypes (i.e., type 2 diabetes mellitus, dementia, and hypothyroidism). Three phenotyping experts evaluated the returned algorithms across several critical metrics. We further implemented the top-rated algorithms and compared them against clinician-validated phenotyping algorithms from the Electronic Medical Records and Genomics (eMERGE) network. ResultsGPT-4 and GPT-3.5 exhibited significantly higher overall expert evaluation scores in instruction following, algorithmic logic, and SQL executability, when compared to Claude 2 and Bard. Although GPT-4 and GPT-3.5 effectively identified relevant clinical concepts, they exhibited immature capability in organizing phenotyping criteria with the proper logic, leading to phenotyping algorithms that were either excessively restrictive (with low recall) or overly broad (with low positive predictive values). ConclusionGPT versions 3.5 and 4 are capable of drafting phenotyping algorithms by identifying relevant clinical criteria aligned with a CDM. However, expertise in informatics and clinical experience is still required to assess and further refine generated algorithms.

Autores: Wei-Qi Wei, C. Yan, H. Ong, M. Grabowska, M. Krantz, W.-C. Su, A. Dickson, J. F. Peterson, Q. Feng, D. M. Roden, C. M. Stein, V. E. Kerchberger, B. A. Malin

Última atualização: 2024-02-26 00:00:00

Idioma: English

Fonte URL: https://www.medrxiv.org/content/10.1101/2023.12.19.23300230

Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.12.19.23300230.full.pdf

Licença: https://creativecommons.org/licenses/by-nc/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes