Usando Modelos de Linguagem pra Resumir Relatórios de PET
Estudo revela que modelos de linguagem podem gerar impressões úteis de laudos PET.
― 7 min ler
Índice
Os radiologistas criam relatórios pra explicar os resultados de exames de imagem médica. Esses relatórios são super importantes pra compartilhar informações sobre a condição do paciente com outros Médicos e a equipe de saúde. Entre os vários exames de imagem, as tomografias PET de corpo inteiro são conhecidas por serem mais longas e complexas. No relatório PET, a seção de achados lista várias observações do exame, enquanto a seção de impressões dá um resumo dos pontos mais importantes. Como outros médicos dependem bastante da seção de impressões pra decisões de tratamento, ela precisa ser precisa e completa. Mas escrever essas impressões pode levar muito tempo e acabar gerando erros. Modelos de linguagem grandes (LLMs) oferecem uma nova forma de acelerar esse processo, escrevendo impressões automaticamente com base nos achados.
Contexto
Embora LLMs tenham sido usados pra resumir achados de vários exames de imagem, ainda não foram muito aplicados a relatórios PET de corpo inteiro. Relatórios PET são significativamente mais longos que os de outros exames, geralmente com 250 a 500 palavras na seção de achados. Esse comprimento traz desafios, já que aumenta a chance de perder informações importantes durante a geração das impressões. Além disso, cada médico tem seu jeito de relatar que precisa ser considerado pra um resultado mais personalizado. Adaptar LLMs pra resumir relatórios PET envolve desafios específicos.
Avaliar o sucesso dos LLMs na produção dessas impressões também é complicado, já que pode haver várias formas válidas de resumir a mesma informação. A Avaliação por especialistas é considerada a melhor maneira de aferir a qualidade, mas não é prático pros médicos revisarem a saída de todos os modelos. Pra resolver isso, estudos recentes desenvolveram métricas de avaliação pra medir como esses modelos resumem documentos médicos. Porém, não foi determinado quão eficazes essas métricas são em relação às impressões PET e quão próximas elas estão das opiniões dos médicos.
O Estudo
O objetivo desse estudo foi ver se LLMs treinados com um grande número de relatórios PET poderiam resumir achados com precisão e criar impressões pra uso prático. Os pesquisadores treinaram 12 modelos de linguagem diferentes usando um conjunto de dados de relatórios PET e avaliaram o desempenho deles usando várias métricas de avaliação. O modelo com melhor desempenho foi então testado pra ver sua capacidade de produzir impressões clinicamente úteis.
Coleta de Dados
Um total de 37.370 relatórios PET coletados de um hospital entre 2010 e 2022 foram usados no estudo. Esses relatórios foram anonimados pra proteger as informações dos pacientes. Os dados foram divididos em grupos pra treinamento, validação e teste. Mais 100 relatórios de outra fonte também foram coletados pra teste externo.
Pré-processamento de Relatórios
Dois tipos de modelos de linguagem foram testados: modelos encoder-decoder e modelos apenas decoder. O primeiro exigia uma formatação específica, onde as primeiras linhas incluíam detalhes sobre o exame e a identidade do médico. O segundo tipo usou uma abordagem diferente, começando com uma instrução que pedia ao modelo pra gerar a Impressão com base no relatório fornecido. As impressões clínicas reais dos relatórios foram usadas pra treinar e avaliar o modelo.
Modelos de Linguagem para Relatórios PET
O estudo focou em sumarização, onde os modelos devem interpretar os achados em vez de apenas repetir partes da seção de achados. Os pesquisadores treinaram vários modelos encoder-decoder e modelos apenas decoder pra ver quais se saíam melhor na geração de impressões precisas. Os modelos ajustados foram então avaliados usando várias métricas de avaliação pra identificar o modelo que teve melhor desempenho na avaliação de especialistas.
Avaliando o Desempenho
Pra determinar quais métricas de avaliação se correlacionavam melhor com as preferências dos médicos, os pesquisadores apresentaram as impressões geradas pelos modelos a dois médicos que as avaliaram. As métricas com a correlação mais forte foram usadas pra selecionar o modelo de melhor desempenho.
Na fase de avaliação por especialistas, três médicos de medicina nuclear revisaram um total de 24 relatórios, avaliando a qualidade das impressões geradas pelos modelos. Eles usaram critérios específicos pra classificar essas impressões e também as compararam com impressões que eles mesmos e outros médicos tinham escrito.
Resultados
O estudo encontrou que duas métricas, chamadas BARTScore e PEGASUSScore, tiveram as correlações mais altas com as preferências dos médicos. O modelo PEGASUS foi identificado como o de melhor desempenho. Quando os médicos revisaram as impressões geradas pelo PEGASUS no estilo deles, um número significativo foi considerado clinicamente aceitável, sugerindo que esse modelo pode gerar resultados úteis pra aplicações do mundo real.
Quando os médicos avaliaram as impressões geradas pra seus próprios relatórios, 89% foram classificadas como clinicamente aceitáveis. No entanto, a média de utilidade foi um pouco menor que as impressões que eles originalmente escreveram. Essa diferença foi atribuída a áreas que precisavam de melhorias, como correção factual e clareza.
Além disso, ao avaliar impressões de outros médicos, as pontuações foram novamente mais baixas que as do próprio trabalho deles, destacando a forte preferência que os médicos têm pelo seu estilo único de relatórios. Apesar das pequenas diferenças nos níveis de satisfação, a utilidade geral das impressões geradas pelo PEGASUS foi considerada comparável às de outros médicos.
Desafios Enfrentados pelo Modelo
Enquanto a maioria das impressões geradas pelo PEGASUS foram aceitáveis, alguns problemas comuns foram identificados. Inexatidões factuais foram um problema frequente, com casos de má interpretação evidentes. Além disso, o modelo às vezes produziu diagnósticos que eram excessivamente confiantes sem evidências suficientes. As recomendações feitas pelo modelo também podiam ser vagas, dificultando o uso delas na prática clínica. Esses problemas enfatizam a necessidade de uma revisão e edição detalhadas pelos médicos antes de finalizar os relatórios.
Limitações do Estudo
Várias limitações foram identificadas ao longo do estudo. Por exemplo, ao ajustar alguns modelos, foi usada apenas uma metodologia simples de adaptação de domínio devido a recursos computacionais limitados. O estudo também manipulou apenas um elemento da entrada pra ajustar o estilo das impressões geradas, deixando outros métodos potenciais inexplorados.
Os testes externos mostraram uma queda notável nas pontuações de avaliação, sugerindo que as diferenças nos estilos de relatório entre o grupo de treinamento interno e médicos externos afetaram o desempenho. Por fim, como o conjunto de dados veio de uma única instituição, pesquisas futuras devem buscar envolver múltiplas instituições pra aprimorar as Descobertas.
Conclusão
Esse estudo examinou como modelos de linguagem grandes poderiam automatizar a geração de impressões pra relatórios PET de corpo inteiro. Os resultados indicaram que o modelo de melhor desempenho, PEGASUS, pode criar impressões personalizadas e clinicamente úteis na maioria dos casos. Dada sua performance, o modelo poderia ser integrado em ambientes clínicos pra ajudar a acelerar os relatórios PET, criando automaticamente impressões iniciais com base nos achados disponíveis.
O estudo reconhece o apoio de várias fontes de financiamento, ao mesmo tempo que deixa claro que as opiniões expressas no trabalho são dos autores e não refletem necessariamente as posições de qualquer organização patrocinadora.
Em conclusão, embora desafios permaneçam, o potencial dos LLMs de melhorar o processo de criação de relatórios médicos é promissor e pode levar a uma melhor eficiência nos ambientes de saúde.
Título: Automatic Personalized Impression Generation for PET Reports Using Large Language Models
Resumo: In this study, we aimed to determine if fine-tuned large language models (LLMs) can generate accurate, personalized impressions for whole-body PET reports. Twelve language models were trained on a corpus of PET reports using the teacher-forcing algorithm, with the report findings as input and the clinical impressions as reference. An extra input token encodes the reading physician's identity, allowing models to learn physician-specific reporting styles. Our corpus comprised 37,370 retrospective PET reports collected from our institution between 2010 and 2022. To identify the best LLM, 30 evaluation metrics were benchmarked against quality scores from two nuclear medicine (NM) physicians, with the most aligned metrics selecting the model for expert evaluation. In a subset of data, model-generated impressions and original clinical impressions were assessed by three NM physicians according to 6 quality dimensions (3-point scale) and an overall utility score (5-point scale). Each physician reviewed 12 of their own reports and 12 reports from other physicians. Bootstrap resampling was used for statistical analysis. Of all evaluation metrics, domain-adapted BARTScore and PEGASUSScore showed the highest Spearman's rank correlations (0.568 and 0.563) with physician preferences. Based on these metrics, the fine-tuned PEGASUS model was selected as the top LLM. When physicians reviewed PEGASUS-generated impressions in their own style, 89% were considered clinically acceptable, with a mean utility score of 4.08 out of 5. Physicians rated these personalized impressions as comparable in overall utility to the impressions dictated by other physicians (4.03, P=0.41). In conclusion, personalized impressions generated by PEGASUS were clinically useful, highlighting its potential to expedite PET reporting.
Autores: Xin Tie, Muheon Shin, Ali Pirasteh, Nevein Ibrahim, Zachary Huemann, Sharon M. Castellino, Kara M. Kelly, John Garrett, Junjie Hu, Steve Y. Cho, Tyler J. Bradshaw
Última atualização: 2023-10-17 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2309.10066
Fonte PDF: https://arxiv.org/pdf/2309.10066
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://huggingface.co/xtie/PEGASUS-PET-impression
- https://github.com/xtie97/PET-Report-Summarization
- https://huggingface.co/xtie/BARTScore-PET
- https://github.com/xtie97/PET-Report-Expert-Evaluation
- https://doi.org/10.2967/jnumed.112.112177
- https://doi.org/10.1148/rg.2020200020
- https://arxiv.org/abs/1809.04698
- https://arxiv.org/abs/2204.00203
- https://arxiv.org/abs/2211.08584
- https://arxiv.org/abs/2306.08666
- https://doi.org/10.1148/radiol.231259
- https://arxiv.org/abs/2304.08448
- https://doi.org/10.1038/s41597-019-0322-0
- https://arxiv.org/abs/2112.09925
- https://arxiv.org/abs/2004.09167
- https://arxiv.org/abs/2305.17364
- https://doi.org/10.1056/NEJMoa2206660
- https://arxiv.org/abs/2212.10560
- https://github.com/tatsu-lab/stanford_alpaca
- https://arxiv.org/abs/1910.13461
- https://arxiv.org/abs/1912.08777
- https://arxiv.org/abs/1910.10683
- https://arxiv.org/abs/2109.01652
- https://arxiv.org/abs/2204.03905
- https://doi.org/10.18653/v1/2022.findings-emnlp.398
- https://doi.org/10.18653/v1/2022.acl-long.151
- https://arxiv.org/abs/1909.08593
- https://arxiv.org/abs/2205.01068
- https://arxiv.org/abs/2302.13971
- https://arxiv.org/abs/2106.09685
- https://arxiv.org/abs/2106.11520
- https://arxiv.org/abs/2303.01258
- https://doi.org/10.1186/gb-2008-9-s2-s2
- https://aclanthology.org/W04-1013/
- https://arxiv.org/abs/1904.09675
- https://arxiv.org/abs/2305.13693
- https://doi.org/10.18653/v1/W18-5623
- https://arxiv.org/abs/2201.11838
- https://arxiv.org/abs/1907.11692
- https://arxiv.org/abs/1711.05101
- https://doi.org/10.3115/1073083.1073135
- https://doi.org/10.18653/v1/W15-3049
- https://arxiv.org/abs/1411.5726
- https://arxiv.org/abs/1508.06034
- https://doi.org/10.18653/v1/D19-1053
- https://doi.org/10.18653/v1/2020.emnlp-main.8
- https://doi.org/10.18653/v1/W17-4510
- https://doi.org/10.18653/v1/2022.emnlp-main.131
- https://arxiv.org/abs/1909.01610
- https://doi.org/10.3115/1220575.1220668
- https://doi.org/10.18653/v1/2020.acl-main.124
- https://doi.org/10.18653/v1/N18-1065
- https://doi.org/10.1162/tacl_a_00373