Melhorando a Identificação de Pacientes com Dermatite Atópica
Novos métodos melhoram a identificação de pacientes com dermatite atópica para testes clínicos.
― 10 min ler
Índice
- Pesquisas Anteriores sobre Dermatite Atópica
- Criando Nosso Conjunto de Dados
- Desenvolvendo Perfis de Pacientes para Classificação
- Resultados dos Experimentos de Classificação de Frases
- Resultados da Classificação de Pacientes
- Descobertas e Implicações
- Direções Futuras
- Aplicações da Pesquisa
- Conclusão
- Fonte original
A Dermatite Atópica (DA) é uma condição de pele comum que afeta cerca de 30% da população. Geralmente começa na infância, mas pode surgir em qualquer idade. Os sintomas da DA incluem pele vermelha, inflamada e coceira, que podem causar desconforto significativo tanto físico quanto emocional. Pessoas com DA costumam ter outras condições alérgicas, como asma, alergias sazonais e alergias alimentares.
Acredita-se que a DA esteja ligada a problemas na barreira da pele e questões com o sistema imunológico. Fatores genéticos e influências ambientais também desempenham um papel no desenvolvimento dessa condição. Os tratamentos tradicionais para DA incluem hidratantes e esteroides tópicos. Recentemente, houve avanços nas opções de tratamento, incluindo novos medicamentos que ajudam a gerenciar a resposta imunológica, como o dupilumabe. Dada a natureza widespread da DA, há uma necessidade urgente de entender melhor como ela se desenvolve, a eficácia dos novos tratamentos e criar novas opções para gerenciar a condição.
Fazer pesquisas sobre DA pode ser complicado porque encontrar o grupo certo de pacientes para os estudos leva muito tempo e esforço. Como a DA é comum e tratada por muitos médicos em diferentes ambientes de saúde, usar os registros eletrônicos de saúde (EHRs) de um sistema de saúde pode ser um recurso valioso. Pesquisadores costumam usar códigos específicos utilizados na cobrança de saúde para identificar pacientes com DA. No entanto, confiar apenas nesses códigos não é muito preciso, o que pode complicar os esforços de pesquisa.
Como resultado, há uma necessidade crescente de métodos confiáveis para identificar rapidamente e com precisão pacientes com DA a partir de seus registros médicos. É aqui que técnicas como processamento de linguagem natural (NLP) e aprendizado de máquina (ML) entram em cena.
Pesquisas Anteriores sobre Dermatite Atópica
Pesquisadores já trabalharam em identificar pacientes com DA usando dados de EHR. Por exemplo, alguns estudos usaram modelos para analisar dados estruturados (como códigos de cobrança e resultados de laboratório) e dados não estruturados (como notas de médicos). Eles atribuíram um diagnóstico correto a cada paciente com base em revisões detalhadas de especialistas médicos.
Nossa pesquisa se baseia nesse trabalho de algumas maneiras importantes. Primeiro, analisamos uma variedade de métodos para treinar modelos em vez de apenas um. Segundo, usamos técnicas avançadas para representar as informações encontradas nos registros dos pacientes. Por último, examinamos como diferentes abordagens para processar os dados dos pacientes afetam a precisão de identificar aqueles com DA.
As principais contribuições do nosso trabalho incluem:
- Propomos um método baseado em regras para coletar informações dos dados de EHR para criar Perfis de Pacientes usados para fins de Classificação.
- Introduzimos um método que usa modelos transformer (BERT) para reunir informações e classificar pacientes com base em probabilidades.
- Comparamos esses dois métodos para ver se um se sai melhor que o outro, especialmente em como identificam os pacientes com DA de forma eficaz.
- Mostramos que tipos específicos de redes podem ser usados para destacar frases relevantes nos registros dos pacientes, facilitando a revisão das notas pelos médicos ao procurar candidatos qualificados para Ensaios Clínicos.
Para determinar se um paciente se qualifica para um estudo de DA com base em seus registros, primeiro dividimos nosso grupo de pacientes em conjuntos de treinamento e teste. Para cada paciente, coletamos informações de seus registros médicos para criar um perfil que reflete características associadas à DA. Por fim, usamos esses perfis para treinar vários modelos de ML com o objetivo de prever se cada paciente tem DA.
Criando Nosso Conjunto de Dados
Começamos amostrando 2.000 pacientes e seus registros de um banco de dados hospitalar. Escolhemos pacientes diagnosticados com certos códigos de cobrança relacionados à DA. Desse grupo, encontramos 1.926 pacientes com notas clínicas disponíveis para nossa análise. Removemos informações pessoais desses registros de acordo com métodos de privacidade estabelecidos. Cada registro foi cuidadosamente revisado e marcado para saber se o paciente atendia aos critérios para ter DA com base em diretrizes estabelecidas.
Para diagnosticar oficialmente alguém com DA, é necessário que a pessoa tenha pele com coceira e pelo menos três outros sinais relacionados, como problemas de pele anteriores, asma ou rinite alérgica, pele seca, erupção que começa antes dos dois anos de idade ou inflamação visível da pele em certas áreas. Nosso conjunto de dados final incluiu 137 pacientes com DA e 1.789 sem DA.
Dividindo os Dados para Análise
Em seguida, dividimos nosso conjunto de dados em conjuntos de treinamento e teste. Como tínhamos muitos mais pacientes sem DA do que com, criamos um conjunto de treinamento balanceado. Assim, tivemos 109 pacientes com DA e um número igual de pacientes sem DA.
Também criamos dois conjuntos de teste. O primeiro conjunto de teste foi balanceado, enquanto o segundo refletia situações do mundo real, onde uma porcentagem maior de pacientes não tem DA. Para o conjunto balanceado, incluímos 20% dos nossos pacientes com DA e os combinamos com o mesmo número de pacientes sem DA. Para o conjunto desbalanceado, pegamos os mesmos pacientes com DA e incluímos pacientes adicionais sem DA para atingir uma proporção de 30% com DA para 70% sem.
Em vez de manter um conjunto separado para ajustar nossos modelos, usamos um método chamado validação cruzada para determinar as melhores configurações para nossos modelos durante o treinamento.
Desenvolvendo Perfis de Pacientes para Classificação
Em seguida, desenvolvemos um perfil para cada paciente. Realizamos três experimentos para comparar diferentes maneiras de criar esses perfis.
Explicação dos Perfis de Pacientes
Cada perfil de paciente contém oito itens que representam se o paciente atende a diferentes critérios para diagnosticar DA. Nos dois primeiros experimentos, cada item mostra uma pontuação de probabilidade, indicando quão provável é que o registro do paciente apoie aquele critério específico. No terceiro experimento, cada item simplesmente mostra um sim ou não com base em se alguma informação relevante foi encontrada no registro do paciente.
Nos dois primeiros experimentos, criamos perfis baseados em probabilidades derivadas de classificadores individuais que analisavam frases nos registros do paciente. Focamos em usar dois modelos transformer diferentes para ver qual deles funcionava melhor na criação desses perfis.
No terceiro experimento, usamos uma abordagem simples onde anotamos se alguma frase no registro indicava a presença de critérios para DA.
Preparando para os Experimentos
Antes de conduzir nossos experimentos, tomamos as mesmas medidas para preparar os dados. Rotulamos frases nos registros médicos com base em palavras-chave específicas ligadas aos critérios da DA. Essa preparação envolveu usar uma ferramenta para dividir os registros em frases e depois categorizar essas frases com base nas palavras-chave identificadas.
Após rotular as frases, realizamos três experimentos diferentes para criar os perfis dos pacientes.
Resultados dos Experimentos de Classificação de Frases
Nos dois primeiros experimentos, treinamos vários modelos para classificar frases e verificamos o desempenho dos dois tipos de modelos transformer. O modelo que teve melhor desempenho consistentemente foi o que identificou menções diretas de DA. Os modelos que apresentaram pior desempenho foram aqueles que destacaram menções de secura da pele ou asma.
No primeiro experimento com o modelo clínico, a precisão para identificar frases variou de 73,73% para menções de secura da pele a 90,02% para menções diretas de DA. O segundo experimento com o modelo padrão obteve resultados semelhantes, com precisão variando de 72,69% a 91,53%.
Resultados da Classificação de Pacientes
Então, comparamos o desempenho dos nossos modelos de classificação de pacientes baseados em diferentes métodos para criar perfis de pacientes. No primeiro experimento, usamos o modelo clínico para gerar perfis e treinar vários algoritmos. Os resultados mostraram que nossa precisão variou de 58,93% a 73,21% em um conjunto de teste balanceado, enquanto o conjunto desbalanceado mostrou resultados variando de 58,24% a 72,53%.
Usar o modelo geral para criação de perfis rendeu precisões mais baixas, variando de 51,79% a 62,50% para o conjunto de teste balanceado e de 57,14% a 67,03% para o conjunto desbalanceado.
No terceiro experimento, observamos um desempenho mais forte em vários classificadores ao simplesmente usar se as frases indicadoras mostraram a presença de critérios de DA.
Descobertas e Implicações
Observamos que nossos modelos conseguiram ter um bom desempenho na identificação de pacientes com DA. A abordagem baseada em regras do terceiro experimento às vezes forneceu melhores resultados, tanto em termos de precisão quanto de facilidade de implementação. Isso indica que métodos mais simples podem identificar efetivamente casos de DA para ensaios clínicos.
Mais importante ainda, essas descobertas sugerem que nossos métodos podem ajudar os clínicos a revisar gráficos de pacientes de forma mais eficiente. Ao destacar frases relevantes nos registros, essas ferramentas podem economizar tempo dos médicos e ajudar a garantir que candidatos qualificados sejam incluídos em estudos clínicos.
Direções Futuras
Apesar dos resultados promissores, reconhecemos algumas limitações. Uma preocupação principal é o pequeno tamanho do nosso conjunto de dados; de quase 2.000 pacientes, apenas 137 tinham DA, o que pode afetar a confiabilidade dos nossos resultados.
Outra limitação foi a restrição de entrada dos modelos transformer usados. Esses modelos aceitam apenas um número fixo de tokens, o que significa que textos mais longos foram ignorados, impedindo-nos de usar todo o registro médico para análise.
Também focamos apenas em alguns indicadores para DA. Incluir variáveis adicionais ou combinações de indicadores pode melhorar ainda mais o desempenho.
Aplicações da Pesquisa
Nossas descobertas abrem a porta para implementar esses métodos em hospitais para agilizar as revisões dos EHR. Por exemplo, classificadores de frases poderiam destacar informações importantes diretamente nas notas dos pacientes, facilitando para os médicos identificarem sintomas relacionados à DA.
Além disso, nossa estrutura poderia classificar casos de pacientes com base em quão próximos eles estão dos critérios de diagnóstico da DA, reduzindo a carga de trabalho durante as revisões e potencialmente acelerando o processo de recrutamento para ensaios clínicos.
Conclusão
Nossa pesquisa apresenta uma abordagem validada para identificar pacientes com dermatite atópica, particularmente no contexto do recrutamento para ensaios clínicos. Ao comparar métodos tradicionais com técnicas modernas de aprendizado de máquina, mostramos que métodos mais simples podem, às vezes, gerar melhores resultados. Este trabalho tem o potencial de melhorar a eficiência da avaliação de pacientes em ambientes clínicos e oferece uma base para pesquisas futuras. Esperamos que essa abordagem possa ser adaptada e expandida para outras condições, aprimorando ainda mais o processo de recrutamento de pacientes em pesquisas clínicas.
Título: Patient Phenotyping for Atopic Dermatitis with Transformers and Machine Learning
Resumo: BackgroundAtopic dermatitis (AD) is a chronic skin condition that millions of people around the world live with each day. Performing research studies into identifying the causes and treatment for this disease has great potential to provide benefit for these individuals. However, AD clinical trial recruitment is a non-trivial task due to variance in diagnostic precision and phenotypic definitions leveraged by different clinicians as well as time spent finding, recruiting, and enrolling patients by clinicians to become study subjects. Thus, there is a need for automatic and effective patient phenotyping for cohort recruitment. ObjectiveOur study aims to present an approach for identifying patients whose electronic health records suggest that they may have AD. MethodsWe created a vectorized representation of each patient and trained various supervised machine learning methods to classify when a patient has AD. Each patient is represented by a vector of either probabilities or binary values where each value indicates whether they meet a different criteria for AD diagnosis. Results: The most accurate AD classifier performed with a class-balanced accuracy of 0.8036, a precision of 0.8400, and a recall of 0.7500 when using XGBoost (Extreme Gradient Boosting). ConclusionsCreating an automated approach for identifying patient cohorts has the potential to accelerate, standardize, and automate the process of patient recruitment for AD studies; therefore, reducing clinician burden and informing knowledge discovery of better treatment options for AD.
Autores: Danielle L Mowery, A. Wang, R. Fulton, S. Hwang, D. J. Margolis
Última atualização: 2023-12-04 00:00:00
Idioma: English
Fonte URL: https://www.medrxiv.org/content/10.1101/2023.08.25.23294636
Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.08.25.23294636.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.