Simple Science

Ciência de ponta explicada de forma simples

# Ciências da saúde# Oncologia

Usando Modelos de Linguagem pra Melhorar o Diagnóstico de Câncer

Este estudo explora como modelos de linguagem podem ajudar na classificação do câncer.

― 7 min ler


Modelos de IA Melhoram oModelos de IA Melhoram oDiagnóstico de Câncerde biomarcadores.classificação do câncer e na extraçãoModelos de IA aumentam a precisão na
Índice

Biomarcadores Moleculares são uns indicadores especiais no corpo que ajudam os médicos a diagnosticar e tratar Câncer. Eles podem mostrar variações em genes ou proteínas que se relacionam com tipos específicos de câncer. Manter-se atualizado com as pesquisas e Diretrizes mais recentes sobre esses biomarcadores pode levar muito tempo para profissionais de saúde e pacientes.

Recentemente, surgiram uns programas de computador avançados conhecidos como modelos de linguagem grandes (LLMs). Esses programas conseguem ler e resumir grandes quantidades de texto médico rapidamente. Isso pode ajudar a aliviar parte da carga de trabalho na saúde, especialmente na hora de resumir informações médicas complicadas ou ajudar as pessoas a entenderem melhor suas condições.

Trabalhos anteriores mostraram que esses LLMs podem identificar informações complexas de anotações oncológicas, sugerir diagnósticos possíveis e até criar ferramentas visuais, como Árvores de Decisão, para ajudar na tomada de decisão clínica. Neste artigo, vamos ver como dois desses LLMs, GPT-4 e Claude-2, podem ajudar a gerar árvores de decisão para classificar diferentes tipos de câncer com base em biomarcadores moleculares.

Criando Árvores de Decisão Diagnósticas

No estudo, focamos em cinco tipos de câncer, cada um conhecido por ter biomarcadores moleculares distintos. Os cânceres estudados incluíram câncer colorretal, carcinoma ductal invasivo, Leucemia Mieloide Aguda, linfoma difuso de células B grandes e glioma difuso. Escolhemos esses cânceres porque têm biomarcadores bem pesquisados.

Usamos tanto o GPT-4 quanto o Claude-2 para criar árvores de decisão que mapeiam os tipos de câncer e seus biomarcadores associados. Um prompt específico foi usado que forneceu diretrizes para criar essas árvores. Alguns prompts incluíram regras de formatação, enquanto outros continham detalhes das últimas diretrizes de classificação para cada tipo de câncer.

As árvores de decisão foram estruturadas de modo que os biomarcadores fossem usados como ramificações, levando a nós finais que representavam diferentes subtipos de câncer. Acompanhamos o desempenho desses modelos avaliando a precisão das árvores que eles produziram.

Avaliando o Desempenho do Modelo

Para garantir comparações precisas, especialistas clínicos checaram a precisão de cada árvore de decisão criada pelos modelos. Eles olharam se as árvores identificavam corretamente os subtipos e biomarcadores para cada tipo de câncer. A saída de cada modelo foi avaliada sem saber qual modelo a produziu, e quaisquer discordâncias entre os revisores foram discutidas e resolvidas.

Além disso, analisamos quão bem cada modelo gerou árvores quando recebeu diretrizes clínicas em comparação com quando não recebeu essas ferramentas. Isso nos ajudou a entender o impacto dessas diretrizes na precisão das árvores de decisão.

Resultados: Precisão das Árvores de Decisão

Ambos os modelos, GPT-4 e Claude-2, conseguiram criar árvores de decisão corretamente, independentemente de receberem ou não as diretrizes reais. No entanto, quando os modelos receberam diretrizes, a capacidade de extrair os tipos de câncer e biomarcadores corretos melhorou significativamente.

Por exemplo, quando receberam diretrizes, a precisão do Claude-2 subiu de 45% para cerca de 81,9%, e para o GPT-4, melhorou de 36,1% para quase 82%. Ambos os modelos se saíram melhor com carcinoma ductal invasivo em termos de geração precisa de subtipos. Contudo, tiveram dificuldades com câncer colorretal quando não foram dadas diretrizes.

Quando as diretrizes foram incluídas, ambos os modelos conseguiram visualizar todos os subtipos esperados para câncer colorretal e carcinoma ductal invasivo.

Alucinações nas Saídas do Modelo

Alucinações são erros onde os modelos produzem informações que não estão nas diretrizes oficiais. Durante nossa avaliação, anotamos com que frequência essas alucinações ocorreram. Por exemplo, quando não receberam diretrizes, GPT-4 e Claude-2 geraram um número alto de subtipos incorretos, especialmente para leucemia mieloide aguda e câncer colorretal.

A frequência dessas alucinações foi reduzida quando os modelos receberam diretrizes. Por exemplo, quando as diretrizes foram incluídas, a taxa de alucinações do Claude-2 caiu de 40% para 21%. Para o GPT-4, diminuiu de 37,1% para apenas 2,9%. Isso destaca a importância de fornecer diretrizes precisas para ajudar os modelos a produzir saídas confiáveis.

Desempenho na Extração de Biomarcadores

Além de avaliar as árvores de decisão, também analisamos quão bem os modelos conseguiram extrair os biomarcadores esperados. O Claude-2 conseguiu extrair cerca de 55% dos biomarcadores esperados quando não foram dadas diretrizes, e isso aumentou para cerca de 86% quando as diretrizes foram usadas. O GPT-4 mostrou resultados semelhantes, com sua taxa de extração subindo de cerca de 50% para 83% quando as diretrizes foram incluídas.

Ambos os modelos tiveram um desempenho igualmente bom na tomada de decisão biomédica para carcinoma ductal invasivo, alcançando precisão perfeita. Contudo, foram menos bem-sucedidos em extrair biomarcadores para leucemia mieloide aguda sem diretrizes.

Assim como nas descobertas com árvores de decisão, os modelos produziram alguns biomarcadores alucinados quando não receberam diretrizes. A proporção dessas alucinações também diminuiu quando os modelos tiveram acesso a diretrizes relevantes.

Precisão Geral das Árvores de Decisão

Ao avaliarmos a precisão geral das árvores de decisão geradas por ambos os modelos, descobrimos que sem diretrizes, o GPT-4 criou ramificações válidas cerca de 46,7% das vezes, enquanto o Claude-2 conseguiu 39,3%. Ambos os modelos viram melhorias substanciais na precisão para leucemia mieloide aguda, que pulou de 0% para 92,3% para o GPT-4 e de 0% para 61,7% para o Claude-2.

No entanto, adicionar diretrizes não aumentou significativamente a precisão geral das árvores de decisão para nenhum dos modelos. A precisão do GPT-4 subiu para 72,5% com diretrizes, enquanto o Claude-2 chegou a 54,2%.

Desenvolvimento de Painel Amigável ao Usuário

Para ajudar os usuários a explorar o desempenho desses modelos, desenvolvemos um painel que permite que indivíduos insiram tipos de câncer específicos e diretrizes para ver como os modelos conseguem gerar árvores de decisão. Essa interface amigável visa facilitar a visualização e compreensão do processo de tomada de decisão para profissionais de saúde e pacientes.

Conclusão

Neste estudo, mostramos que modelos de linguagem podem produzir árvores de decisão precisas para classificar subtipos de câncer usando diretrizes clínicas. Além disso, fornecer essas diretrizes melhorou a extração de biomarcadores moleculares e subtipos de câncer.

Embora nossas descobertas sejam promissoras, ainda há desafios pela frente. O estudo focou no diagnóstico molecular, que é apenas uma parte de se tomar decisões clínicas. Nem todas as características moleculares se encaixam em categorias simples, então esforços futuros podem considerar como representar probabilidades em diferentes pontos das árvores de decisão. Além disso, usamos modelos programados de APIs que não são tão compreensíveis ou custo-efetivos como algumas alternativas de código aberto.

Independentemente desses desafios, nossas avaliações iniciais mostram que modelos como o GPT-4 têm um grande potencial para apoiar a revisão e visualização de informações médicas em oncologia. Esperamos que pesquisas futuras possam construir sobre essas descobertas para ajudar a resumir estudos clínicos e melhorar a comunicação de diretrizes em várias áreas médicas. Isso pode levar a melhores ferramentas para entender informações médicas complexas e melhorar o atendimento ao paciente.

Fonte original

Título: Generation of guideline-based clinical decision trees in oncology using large language models

Resumo: BackgroundMolecular biomarkers play a pivotal role in the diagnosis and treatment of oncologic diseases but staying updated with the latest guidelines and research can be challenging for healthcare professionals and patients. Large Language Models (LLMs), such as MedPalm-2 and GPT-4, have emerged as potential tools to streamline biomedical information extraction, but their ability to summarize molecular biomarkers for oncologic disease subtyping remains unclear. Auto-generation of clinical nomograms from text guidelines could illustrate a new type of utility for LLMs. MethodsIn this cross-sectional study, two LLMs, GPT-4 and Claude-2, were assessed for their ability to generate decision trees for molecular subtyping of oncologic diseases with and without expert-curated guidelines. Clinical evaluators assessed the accuracy of biomarker and cancer subtype generation, as well as validity of molecular subtyping decision trees across five cancer types: colorectal cancer, invasive ductal carcinoma, acute myeloid leukemia, diffuse large B-cell lymphoma, and diffuse glioma. ResultsBoth GPT-4 and Claude-2 "off the shelf" successfully produced clinical decision trees that contained valid instances of biomarkers and disease subtypes. Overall, GPT-4 and Claude-2 showed limited improvement in the accuracy of decision tree generation when guideline text was added. A Streamlit dashboard was developed for interactive exploration of subtyping trees generated for other oncologic diseases. ConclusionThis study demonstrates the potential of LLMs like GPT-4 and Claude-2 in aiding the summarization of molecular diagnostic guidelines in oncology. While effective in certain aspects, their performance highlights the need for careful interpretation, especially in zero-shot settings. Future research should focus on enhancing these models for more nuanced and probabilistic interpretations in clinical decision-making. The developed tools and methodologies present a promising avenue for expanding LLM applications in various medical specialties. Key Points- Large language models, such as GPT-4 and Claude-2, can generate clinical decision trees that summarize best-practice guidelines in oncology - Providing guidelines in the prompt query improves the accuracy of oncology biomarker and cancer subtype information extraction - However, providing guidelines in zero-shot settings does not significantly improve generation of clinical decision trees for either GPT-4 or Claude-2

Autores: Brenda Y Miao, E. Rodriguez Almaraz, A. Ashraf Ganjouei, A. Suresh, T. Zack, M. Bravo, S. Raghavendran, B. Oskotsky, A. Alaa, A. J. Butte

Última atualização: 2024-03-06 00:00:00

Idioma: English

Fonte URL: https://www.medrxiv.org/content/10.1101/2024.03.04.24303737

Fonte PDF: https://www.medrxiv.org/content/10.1101/2024.03.04.24303737.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes