Avançando a Extração de Dados de Saúde com Ferramentas de IA
Uma nova ferramenta de IA facilita a extração de dados de registros de saúde não estruturados de forma eficiente.
― 5 min ler
Índice
Nos últimos anos, os registros de saúde viraram digitais, permitindo que pesquisadores acessem uma porção enorme de informações dos pacientes. Mas, muita dessa informação é Desestruturada, ou seja, não tá organizada de um jeito claro. Por exemplo, as anotações dos médicos podem estar escritas em texto livre ao invés de tabelas. Embora esse texto livre possa dar insights valiosos, tirar dados úteis dele pode ser desafiador e demorado.
O Problema com Dados Desestruturados
Usar dados desestruturados em pesquisas é complicado por várias razões. Primeiro, extrair dados de campos em texto livre costuma dar um trabalhão, exigindo muito tempo e esforço manual. Segundo, esses textos podem variar bastante na forma como são escritos, dificultando a comparação de dados de diferentes fontes. Por último, a qualidade e a completude da informação podem não ser consistentes, complicando ainda mais as pesquisas.
Uma Nova Abordagem
Recentemente, avanços em inteligência artificial (IA) trouxeram Ferramentas que podem ajudar a resolver esse problema. Uma dessas abordagens envolve o uso de grandes modelos de linguagem (LLMs) que podem analisar dados sem precisar de um treinamento extenso antes. Isso é conhecido como aprendizado zero-shot, onde o modelo consegue extrair informações com Precisão mesmo sem ter sido treinado especificamente sobre aquilo.
Desenvolvimento da Ferramenta
Uma nova ferramenta foi desenvolvida usando um modelo de linguagem que utiliza aprendizado zero-shot para extrair informações de dados de saúde desestruturados encontrados em documentos PDF. A ferramenta analisa relatórios de procedimentos de prostatectomia radical, que são relatórios cirúrgicos que geralmente são complexos e têm muito texto livre.
Como a Ferramenta Funciona
Usar essa ferramenta é bem simples. Os usuários fornecem uma série de documentos PDF e pedem para a ferramenta extrair informações específicas, como o nome de um médico ou detalhes médicos específicos. A ferramenta usa várias bibliotecas de programação para ler o texto dos PDFs, processa e depois extrai as informações necessárias com base no que o usuário pediu. No final, os resultados são colocados em uma planilha do Excel para facilitar a análise.
Benefícios da Ferramenta
Uma das principais vantagens de usar essa ferramenta é a velocidade. Descobriu-se que ela consegue realizar tarefas muito mais rápido do que os seres humanos. Isso significa que os pesquisadores podem gastar menos tempo no trabalho pesado de extração de dados, podendo focar em atividades de pesquisa mais importantes.
Dados da fase de testes mostraram que o software conseguia processar informações em média de 12 a 16 segundos por relatório, enquanto os humanos costumam levar cerca de 100 segundos. Isso representa uma vantagem significativa em termos de economia de tempo.
Precisão da Ferramenta
Em termos de precisão, a ferramenta mostrou resultados impressionantes. Ela alcançou uma taxa de precisão geral de 94% ao processar os relatórios de melhor qualidade, que é comparável às taxas de precisão dos humanos. Embora a ferramenta tenha se saído um pouco pior com relatórios escaneados devido a possíveis erros durante o processo de conversão de texto, ainda assim teve um desempenho adequado, mostrando um nível significativo de precisão em comparação com os humanos.
Análise de Erros
A ferramenta encontrou alguns desafios ao extrair certos tipos de dados. Erros podem acontecer por várias razões, como entender errado o contexto de uma pergunta ou não fornecer detalhes suficientes na resposta. Por exemplo, pode acabar oferecendo um termo geral ao invés do valor específico que se precisava.
A Importância de Prompts Claros
A forma como o usuário faz uma pergunta pode afetar bastante o desempenho da ferramenta. Prompts claros e precisos levam a resultados melhores. Os pesquisadores precisam formular suas perguntas em termos diretos para obter as respostas mais precisas da ferramenta.
Perspectivas Futuras
As capacidades dessa ferramenta podem ser expandidas além das aplicações médicas. Como ela não precisa de um treinamento específico para cada tarefa, pode ser adaptada para várias áreas que exigem abstração de dados de texto desestruturado. Isso significa que indústrias como finanças, direito e ciências sociais também poderiam se beneficiar dessa tecnologia.
A Necessidade de Melhoria
Apesar de a ferramenta ter mostrado resultados promissores, ainda há áreas que precisam de melhorias. Melhorar as capacidades de Reconhecimento Óptico de Caracteres (OCR) pode ajudar a aumentar a precisão, especialmente na conversão de documentos escaneados em texto. Essa refinamento poderia reduzir ainda mais os erros e melhorar o desempenho geral.
Conclusão
O desenvolvimento dessa ferramenta representa um passo importante na extração de dados de texto desestruturado na saúde. Ao oferecer aos pesquisadores um método confiável para abstrair dados de forma rápida e precisa, ela abre novas possibilidades para a pesquisa clínica. Com melhorias contínuas, essa tecnologia pode se tornar um ativo inestimável em várias áreas além da medicina.
Título: Validation of a Zero-Shot Learning Natural Language Processing Tool for Data Abstraction from Unstructured Healthcare Data
Resumo: Objectives: To describe the development and validation of a zero-shot learning natural language processing (NLP) tool for abstracting data from unstructured text contained within PDF documents, such as those found within electronic health records. Materials and Methods: A data abstraction tool based on the GPT-3.5 model from OpenAI was developed and compared to three physician human abstractors in terms of time to task completion and accuracy for abstracting data on 14 unique variables from a set of 199 de-identified radical prostatectomy pathology reports. The reports were processed by the software tool in vectorized and scanned formats to establish the impact of optical character recognition on data abstraction. The tool was assessed for superiority for data abstraction speed and non-inferiority for accuracy. Results: The human abstractors required a mean of 101s per report for data abstraction, with times varying from 15 to 284 s. In comparison, the software tool required a mean of 12.8 s to process the vectorized reports and a mean of 15.8 to process the scanned reports (P < 0.001). The overall accuracies of the three human abstractors were 94.7%, 97.8%, and 96.4% for the combined set of 2786 datapoints. The software tool had an overall accuracy of 94.2% for the vectorized reports, proving to be non-inferior to the human abstractors at a margin of -10% ($\alpha$=0.025). The tool had a slightly lower accuracy of 88.7% using the scanned reports, proving to be non-inferiority to 2 out of 3 human abstractors. Conclusion: The developed zero-shot learning NLP tool affords researchers comparable levels of accuracy to that of human abstractors, with significant time savings benefits. Because of the lack of need for task-specific model training, the developed tool is highly generalizable and can be used for a wide variety of data abstraction tasks, even outside the field of medicine.
Autores: Basil Kaufmann, Dallin Busby, Chandan Krushna Das, Neeraja Tillu, Mani Menon, Ashutosh K. Tewari, Michael A. Gorin
Última atualização: 2023-07-23 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2308.00107
Fonte PDF: https://arxiv.org/pdf/2308.00107
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.