Simple Science

Ciência de ponta explicada de forma simples

# Ciências da saúde# Neurologia

O Papel da IA no Diagnóstico da Doença de Parkinson Através da Análise de Voz

Explorando o potencial da análise de voz pra detectar sintomas iniciais da Doença de Parkinson.

― 9 min ler


IA na Detecção de Voz doIA na Detecção de Voz doParkinsonParkinson através da análise da voz.Métodos inovadores para diagnosticar
Índice

A doença de Parkinson (DP) é uma condição que afeta o sistema nervoso central. Ela causa movimentos involuntários como tremores, rigidez e dificuldades de equilíbrio. A DP é conhecida como um transtorno neurodegenerativo, o que significa que piora com o tempo. Além dos sintomas físicos, muitas pessoas com DP também enfrentam desafios relacionados ao humor, como depressão, e problemas de memória. Embora não exista cura para a DP, há medicamentos que podem ajudar a reduzir os sintomas. É importante detectar a doença cedo, em vez de esperar até que ela se torne grave.

Técnicas Atuais de Diagnóstico

Atualmente, os médicos usam uma mistura de testes clínicos e exames de imagem para diagnosticar a DP. No entanto, esses métodos tradicionais podem ser invasivos e caros, e muitas vezes exigem treinamento especializado. Nos últimos anos, a introdução da inteligência artificial (IA) abriu novas formas de diagnosticar a DP. Uma área promissora é a Análise de Voz.

IA e Análise de Voz

Desenvolvimentos recentes em IA e aprendizado de máquina (ML) mostram grande potencial em usar a análise de voz para identificar sinais precoces da DP. Estudos têm se concentrado em extrair características de gravações de voz para distinguir indivíduos saudáveis daqueles com DP. Enquanto métodos mais antigos usavam estatísticas básicas, há uma crescente mudança em direção a técnicas de Aprendizado Profundo que podem encontrar automaticamente detalhes importantes em dados de voz brutos.

Técnicas para Análise de Voz

Um dos primeiros estudos nessa área usou máquinas de vetor de suporte (SVM) para classificar as vozes de pacientes com DP. Este estudo encontrou uma precisão de 91,4%, marcando um passo importante. No entanto, não utilizou os Coeficientes Cepstrais Mel-Frequenciais (MFCCS), que são cruciais para diagnosticar a DP por meio da voz. Esta pesquisa atual visa incluir MFCCs junto com outras características vocais.

Outra abordagem usou um sistema de suporte à decisão para permitir a avaliação remota da DP, que normalmente requer a presença física do paciente em uma clínica. Estudos recentes começaram a aplicar modelos de aprendizado profundo, como redes de Memória de Longo e Curto Prazo (LSTM), para analisar padrões de fala. Por exemplo, um estudo alcançou 89% de precisão na detecção de sintomas precoces da DP, enquanto outro usou uma rede neural convolucional (CNN) e alcançou 93,5% de precisão. Esses achados indicam um movimento em direção a modelos de IA mais avançados no diagnóstico da DP.

Combinando Análise de Voz com Outros Dados

Há também potencial em combinar a análise de voz com outros tipos de dados, como informações de dispositivos vestíveis. Um estudo mostrou que misturar dados de voz com sinais fisiológicos aumentou a precisão diagnóstica para cerca de 96%. No entanto, essa abordagem combinada ainda é nova, e a pesquisa está em andamento para encontrar as melhores maneiras de mesclar esses diferentes tipos de dados. Para este artigo, o foco é exclusivamente em dados de voz, permitindo uma visão mais clara de como as características vocais podem diagnosticar a DP sem interferência de outros fatores.

Arquitetura do Modelo para Diagnóstico

Historicamente, modelos de IA em análises médicas operavam separadamente uns dos outros. Uma exceção notável envolve um modelo de IA em pipeline que combina várias técnicas, como SVM, adaboost e florestas aleatórias, juntamente com modelos de aprendizado profundo. Este estudo visa observar como um novo modelo em pipeline, utilizando características vocais, se sai no diagnóstico da DP.

IA Explicável

Uma técnica chamada SHAP (SHapley Additive exPlanations) tem sido usada com sucesso para explicar as decisões tomadas por vários modelos no diagnóstico de diferentes condições. Ao aplicar o SHAP nos seus modelos, os pesquisadores podem identificar quais características nos dados de voz são mais influentes na previsão da DP e ganhar a confiança de clínicos e pacientes no processo diagnóstico da IA.

Desafios no Diagnóstico

Um grande desafio em usar modelos de aprendizado profundo é que muitos deles não explicam bem suas decisões, o que é crucial em saúde. Além disso, a maioria dos modelos é treinada em grupos específicos, o que limita sua eficácia em populações diversas. Há uma necessidade urgente de conjuntos de dados variados para garantir que esses modelos funcionem bem para todos os pacientes.

Objetivos da Pesquisa

Os principais objetivos desta pesquisa são:

  1. Detectar e prever automaticamente a DP usando características vocais.
  2. Determinar e destacar padrões importantes nos dados de voz que sugerem DP.
  3. Desenvolver um sistema de pontuação que represente a probabilidade de um paciente ter DP, indo além de simples rótulos positivos ou negativos.

Coleta e Preparação de Dados

O conjunto de dados usado para treinar o modelo de IA consistiu em gravações de voz de 81 indivíduos. Desses, 41 eram de indivíduos saudáveis, enquanto 40 eram de pessoas diagnosticadas com DP. Para garantir a qualidade dos dados, as gravações foram limpas para remover ruídos de fundo e padronizar os níveis de áudio entre os gêneros.

Analisando os Dados

O modelo de IA se destaca em lidar com arquivos de áudio, especialmente em formatos como .wav. O modelo usa bibliotecas específicas em Python para extrair características chave do áudio. Por exemplo, ele analisa variações de tom, padrões de frequência e outros detalhes acústicos relevantes. Essas características são cruciais para a capacidade do modelo de diferenciar vozes saudáveis daquelas afetadas pela DP.

Entendendo Padrões de Frequência

Analisar a voz no domínio da frequência permite uma compreensão mais profunda das características vocais. Ao aplicar a Transformada de Fourier, o modelo consegue decompor as gravações de voz em frequências e suas respectivas intensidades. A partir disso, pode identificar características chave relacionadas à saúde vocal, ajudando a discernir sinais de DP.

Extraindo Características Chave

Usando os dados de frequência, o modelo de IA extrai características acústicas importantes, como tom, jitter (variações de frequência), shimmer (variações de amplitude) e a razão harmônica-ruído (HNR), que fala sobre quão clara é a voz. Essas características são padronizadas para garantir que sejam comparáveis, melhorando a precisão do modelo.

Insights da Análise

Por meio de várias ferramentas visuais, os pesquisadores podem entender melhor os padrões nas gravações de voz. Por exemplo, espectrogramas mostram como os componentes de frequência mudam ao longo do tempo, oferecendo insights sobre a estabilidade da voz. Vozes saudáveis apresentam padrões de frequência consistentes, enquanto vozes afetadas pela DP podem exibir irregularidades.

Treinamento e Avaliação do Modelo

A equipe de pesquisa treinou um modelo combinado usando MLP, CNN, RNN e MKL para analisar os dados de voz de forma eficaz. Este modelo híbrido capitaliza as forças de cada abordagem, melhorando a capacidade de identificar padrões sutis nas gravações de voz. O modelo passou por testes rigorosos para determinar sua precisão no diagnóstico da DP.

Benefícios de um Sistema de Pontuação

O sistema de pontuação desenvolvido oferece uma medição quantificável da probabilidade de um paciente ter DP. Ao atribuir probabilidades com base nas características vocais, o modelo permite que os médicos tomem decisões mais informadas, caminhando em direção a planos de tratamento personalizados em vez de depender de um simples diagnóstico de sim ou não.

Resultados e Desempenho do Modelo

O modelo combinado alcançou resultados impressionantes, com altas taxas de precisão na distinção entre indivíduos saudáveis e aqueles com DP. O modelo demonstrou precisão e recall significativos, o que significa que foi bom em identificar verdadeiras instâncias de DP e minimizar falsos positivos.

Analisando Classificações Erradas

Mesmo com um desempenho forte, algumas classificações erradas ocorreram. Indivíduos saudáveis às vezes podiam ser identificados erroneamente como tendo DP devido a semelhanças sutis nos padrões vocais. Para pacientes com DP, a variabilidade nos sintomas pode levar a diagnósticos perdidos, destacando a necessidade de melhorias contínuas no modelo.

Análise da Importância das Características

Para entender quais características vocais são mais importantes na previsão da DP, foi realizada uma análise SHAP. Características chave como MFCCs, jitter e shimmer foram identificadas como grandes influenciadoras nas previsões do modelo. Isso destaca sua importância em reconhecer as mudanças vocais associadas à DP.

Limitações e Pesquisas Futuras

A pesquisa reconhece limitações devido ao pequeno tamanho da amostra e à mistura de dados de DP em estágios iniciais e avançados, o que pode afetar a capacidade do modelo de identificar casos com precisão. Pesquisas futuras visam coletar mais dados e considerar a combinação da análise de voz com outras medições físicas para melhorar as capacidades diagnósticas.

Conclusão

Essa pesquisa mostra que a IA, especialmente por meio de um modelo híbrido que combina diferentes técnicas analíticas, pode ser uma ferramenta promissora para diagnosticar a DP precoce usando análise de voz. Com alta precisão e insights sobre características vocais, essa abordagem pode revolucionar a forma como a DP é detectada e gerenciada em ambientes clínicos.

Fonte original

Título: Explainable Artificial Intelligence to Diagnose Early Parkinson's Disease via Voice Analysis

Resumo: AO_SCPLOWBSTRACTC_SCPLOWO_ST_ABSBackgroundC_ST_ABSParkinsons disease (PD) is a progressive neurodegenerative disorder that affects motor control, leading to symptoms such as tremors or impaired balance. Early diagnosis of PD is crucial for effective treatment, yet traditional diagnostic models are often costly and lengthy. This study explores the use of Artificial Intelligence (AI) and Machine Learning (ML) techniques, particularly voice analysis, to identify early signs of PD and make a precise diagnosis. ObjectivesThis paper aims to create an automatic detection and prediction of PD binary classification using vocal biomarkers. We will also use explainability to identify latent and important patterns in the input data in retrospect to the target to inform the definition of Parkinsons through voice characteristics. Finally, a probability generation will be generated to create a scoring system of a patients odds of PD as a spectrum. MethodsWe utilized a dataset comprising 81 voice recordings from both healthy control (HC) and PD patients, applying a hybrid AI model combining Convolutional Neural Networks (CNN), Recurrent Neural Networks (RNN), Multiple Kernel Learning (MKL), and Multilayer Perceptron (MLP). The models architecture was designed to extract and analyze acoustic features such as Mel-Frequency Cepstral Coefficients (MFCCs), local jitter, and local shimmer, which are all indicative of PD-related voice impairments. Once features are extracted, the AI model will generate prediction labels for HC or PD files. Then, a scoring system will assign a number ranging from 0-1 to each file, indicating the stage of PD development. ResultsOur champion model yielded the following results: diagnostic accuracy of 91.11%, recall of 92.50%, precision of 89.84%, an F1 score of 0.9113, and an area under curve (AUC) of 0.9125. Furthermore, the use of SHapley Additive exPlanations (SHAP) provided detailed insight into the models decision-making process, highlighting the most influential features contributing to a PD diagnosis. The outcomes of the implemented scoring system demonstrate a distinct separation in the probability assessments for PD across the 81 analyzed audio samples, validating our scoring system by confirming that the vocal biomarkers in the audio files accurately correspond with their assigned scores. ConclusionThis study highlights the efficacy of AI, particularly a hybrid model combining CNN, RNN, MKL, and Deep Learning in diagnosing early PD through voice analysis. The model demonstrated a robust ability to distinguish between HC and PD patients with significant accuracy by leveraging key vocal biomarkers such as MFCCs, jitter, and shimmer.

Autores: Matthew Shen, Pouria Mortezaagha, Arya Rahgozar

Última atualização: 2024-09-30 00:00:00

Idioma: English

Fonte URL: https://www.medrxiv.org/content/10.1101/2024.09.29.24314580

Fonte PDF: https://www.medrxiv.org/content/10.1101/2024.09.29.24314580.full.pdf

Licença: https://creativecommons.org/licenses/by-nc/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes