IA na Medicina de Emergência: O Potencial do ChatGPT
Estudo mostra que o ChatGPT consegue avaliar a gravidade dos pacientes de forma eficaz.
― 7 min ler
Em novembro de 2022, uma nova ferramenta chamada ChatGPT foi lançada. Essa ferramenta consegue entender e gerar linguagem humana. Tem uma porção de informações armazenadas, o que a torna capaz de realizar várias tarefas relacionadas à linguagem. Estudos recentes mostram que ela vai bem em certas tarefas, como escrever resumos de artigos científicos e fazer exames médicos. No entanto, esses estudos foram, em sua maioria, realizados em ambientes controlados, e a gente não sabia como ela se sairia com registros e situações médicas reais.
Uma parte importante do trabalho médico, especialmente em salas de emergência, é descobrir quão grave está a condição de um paciente. Isso é chamado de acuidade clínica. Ajuda os médicos a decidirem quanta atenção um paciente precisa. Neste artigo, a gente analisa se o ChatGPT consegue identificar corretamente o paciente mais grave quando recebe pares de pacientes com diferentes níveis de acuidade.
Metodologia
Para conduzir esse estudo, focamos nas visitas ao Departamento de Emergência da Universidade da Califórnia em San Francisco de 2012 a 2023. Analisamos registros de pacientes adultos que tinham um nível de acuidade declarado quando vieram para a sala de emergência. Os níveis de acuidade variavam de Imediato (mais sério) a Não Urgente (menos sério). Também revisamos as anotações dos médicos feitas durante essas visitas, garantindo que informações que identificassem os pacientes fossem removidas.
Dessa coleção de informações, extraímos detalhes chave sobre a condição de cada paciente. Nos concentramos em três áreas principais: a Queixa Principal, que é a questão principal que o paciente mencionou; a História da Doença Atual, que explica o que levou o paciente a buscar atendimento; e a Revisão de Sistemas, que cobre outros problemas de saúde que o paciente pode ter enfrentado.
Em seguida, selecionamos uma amostra de 10.000 pares de pacientes, garantindo que cada par tivesse pontuações de acuidade diferentes. Usamos um método seguro para pedir ao ChatGPT que olhasse para esses pares de pacientes e determinasse qual paciente tinha um nível de acuidade mais alto. Para comparar seu desempenho, também pedimos a um médico que revisasse manualmente um grupo menor de 500 pares.
O processo foi aprovado pelo comitê de ética, confirmando que o uso desses dados, sem detalhes pessoais, não precisava de permissão adicional.
Resultados
Do total de visitas de adultos, criamos nossa amostra de pares de pacientes, garantindo que os pares tivessem classificações de acuidade diferentes. Então pedimos ao ChatGPT para identificar qual paciente era mais grave com base em seu histórico médico.
Nesse grupo de pacientes pareados, o ChatGPT identificou corretamente o paciente com maior acuidade 8.354 vezes em 10.000 tentativas. Isso significa que sua precisão foi de cerca de 84%. O desempenho da ferramenta foi ainda melhor quando os níveis de acuidade estavam mais distantes. Por exemplo, ao distinguir entre os pacientes mais urgentes e aqueles que precisavam de menos atenção, a precisão chegou a 98%.
Para o grupo de 500 pares que também teve a revisão de um médico, o ChatGPT manteve um nível de precisão semelhante, alcançando 84% em comparação com os 86% do médico. Isso mostra que o desempenho do ChatGPT estava próximo ao de um médico treinado usando apenas as informações da primeira visita do paciente.
Discussão
Esse estudo marca um passo significativo na avaliação das habilidades do ChatGPT em situações médicas reais. Os resultados mostram que o ChatGPT pode determinar efetivamente a gravidade da condição de um paciente com base nas informações contidas nas anotações médicas.
Quando comparamos o desempenho do ChatGPT ao de um médico, ambos alcançaram níveis de precisão semelhantes. Isso sugere que modelos de linguagem como o ChatGPT podem ter um papel útil na medicina de emergência, ajudando médicos a tomar decisões rápidas e informadas com base nos históricos dos pacientes.
No entanto, existem algumas limitações a considerar. Por exemplo, não tentamos mudar a forma como fizemos perguntas ao ChatGPT para potencialmente melhorar ainda mais sua precisão. Além disso, embora as pontuações de acuidade ofereçam uma boa noção da condição de um paciente, elas podem não capturar todos os aspectos do estado de saúde de um paciente. Adicionalmente, não temos todos os detalhes de como o ChatGPT foi treinado, o que pode influenciar seu desempenho.
Apesar dessas limitações, os achados são promissores. Eles sugerem que, mesmo com as diferenças entre a linguagem clínica e o uso geral da linguagem, o ChatGPT pode funcionar bem em configurações médicas do mundo real.
Conclusão
A habilidade do ChatGPT de identificar pacientes com diferentes níveis de acuidade é encorajadora para o futuro da medicina de emergência. Essa ferramenta pode apoiar os profissionais de saúde, auxiliando em avaliações rápidas das condições dos pacientes. Com os avanços contínuos na tecnologia e mais estudos, a gente pode ver uma integração ainda melhor dos modelos de linguagem na prática médica.
À medida que exploramos mais usos da IA na saúde, é importante continuar avaliando como essas ferramentas se saem em situações da vida real. Isso vai ajudar a garantir que elas possam oferecer o melhor suporte aos profissionais médicos e, em última análise, melhorar o atendimento ao paciente.
Em resumo, os resultados deste estudo indicam que o ChatGPT é uma ferramenta capaz de determinar a acuidade dos pacientes com base em informações clínicas. À medida que olhamos para frente, pode haver possibilidades empolgantes para usar a IA para aprimorar as práticas médicas e melhorar os resultados dos pacientes.
Direções Futuras
Olhando para o futuro, mais pesquisas podem focar em como otimizar o uso da IA em situações de emergência. Isso poderia incluir explorar diferentes maneiras de fazer perguntas, testar as habilidades do ChatGPT em várias especialidades médicas e entender as implicações de suas decisões em diferentes contextos.
Além disso, treinar modelos de IA com dados clínicos mais específicos poderia refinar sua precisão em situações do mundo real. À medida que a tecnologia da IA avança, isso pode levar a melhores ferramentas que podem ajudar na avaliação de pacientes, triagem e outras tarefas médicas, tornando a assistência médica ainda mais eficiente e eficaz.
Com a exploração contínua, podemos ver a IA se tornando parte padrão da prática médica, ajudando a fechar a lacuna entre tecnologia e atendimento ao paciente. O potencial da IA para transformar a medicina de emergência é vasto, e estudos contínuos serão fundamentais para moldar seu papel na saúde daqui para frente.
Em conclusão, este estudo representa apenas um dos muitos passos em uma jornada maior rumo à integração da IA na saúde. A relação entre tecnologia e medicina está evoluindo, e entender como usar da melhor forma ferramentas como o ChatGPT será crucial enquanto avançamos para um futuro onde a IA desempenha um papel chave no campo médico.
Título: Assessing clinical acuity in the Emergency Department using the GPT-3.5 Artificial Intelligence Model
Resumo: This paper evaluates the performance of the Chat Generative Pre-trained Transformer (ChatGPT; GPT-3.5) in accurately identifying higher acuity patients in a real-world clinical context. Using a dataset of 10,000 pairs of patient Emergency Department (ED) visits with varying acuity levels, we demonstrate that GPT-3.5 can successfully determine the patient with higher acuity based on clinical history sections extracted from ED physician notes. The model achieves an accuracy of 84% and an F1 score of 0.83, with improved performance for more disparate acuity scores. Among the 500 pair subsample that was also manually classified by a resident physician, GPT-3.5 achieved similar performance (Accuracy = 0.84; F1 score = 0.85) compared to the physician (Accuracy = 0.86, F1 score = 0.87). Our results suggest that, in real-world settings, GPT-3.5 can perform comparably to physicians on the clinical reasoning task of ED acuity determination.
Autores: Christopher Y.K. Williams, T. Zack, B. Y. Miao, M. Sushil, M. Wang, A. J. Butte
Última atualização: 2023-08-13 00:00:00
Idioma: English
Fonte URL: https://www.medrxiv.org/content/10.1101/2023.08.09.23293795
Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.08.09.23293795.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.