Justiça em Avaliações Automatizadas de Saúde Mental
Analisando os preconceitos nas ferramentas de avaliação de saúde mental e seu impacto no tratamento.
― 8 min ler
Índice
- A Importância da Equidade nas Avaliações de Saúde Mental
- As Fontes de Preconceito em Sistemas Automatizados
- Métodos para Avaliar a Equidade
- Tendências Atuais na Pesquisa de Equidade
- Metodologia de Pesquisa
- Estrutura de Avaliação Multimodal
- Métricas de Avaliação de Equidade
- Resultados da Análise de Equidade
- Mitigação da Injustiça
- Discussão sobre Limitações
- Conclusão
- Fonte original
Problemas de saúde mental afetam muitas pessoas ao redor do mundo. Estima-se que cerca de um bilhão de indivíduos vive com algum transtorno mental, mas muitos não recebem a ajuda que precisam. Nos últimos anos, houve um aumento nos serviços de telemedicina para saúde mental, especialmente depois da pandemia de COVID-19, já que isso oferece opções de cuidado mais acessíveis. No entanto, diagnósticos de saúde mental muitas vezes incluem opiniões subjetivas e Preconceitos pessoais, o que pode levar a tratamentos injustos e diagnósticos errados, especialmente para certos grupos.
A Importância da Equidade nas Avaliações de Saúde Mental
Nas avaliações de saúde mental, é crucial que todos sejam tratados de forma justa, independentemente de sua origem ou identidade. Por exemplo, alguns grupos, como os afro-americanos, podem enfrentar preconceitos em seus diagnósticos. Métodos padrão de avaliação de saúde mental, como questionários auto-relatados, podem ser influenciados por percepções pessoais, levando a inconsistências no tratamento e cuidado.
Ferramentas digitais automatizadas foram desenvolvidas para fornecer avaliações mais objetivas. Essas ferramentas monitoram vários indicadores relacionados a Condições de Saúde Mental, e o objetivo delas é minimizar preconceitos e oferecer melhor suporte a populações carentes. No entanto, até esses sistemas automatizados podem carregar preconceitos se dependem de dados de treinamento falhos ou têm preconceitos inerentes em seu design.
As Fontes de Preconceito em Sistemas Automatizados
Vários fatores contribuem para o preconceito nas avaliações automatizadas de saúde mental. O primeiro envolve os rótulos usados para categorizar condições de saúde mental durante o treinamento desses sistemas. Em segundo lugar, os dados coletados podem estar inclinados para certas demografias, criando uma visão imbalanced. Por último, modelos pré-treinados que já têm preconceitos podem perpetuar ainda mais esses problemas em novos sistemas.
A equidade nessas avaliações automatizadas é uma área de pesquisa em crescimento. Muitos estudos se concentram em como medir e combater preconceitos, especialmente em sistemas que classificam indivíduos em categorias com base em dados.
Métodos para Avaliar a Equidade
Para garantir a equidade nas avaliações automatizadas de saúde mental, os pesquisadores costumam analisar como diferentes grupos demográficos são tratados. Um método comum é avaliar a distribuição de resultados positivos entre vários grupos e comparar isso com um grupo privilegiado. Existem várias medidas de equidade utilizadas, como paridade demográfica, onde todos os grupos devem ter as mesmas taxas de avaliação positiva, e odds equalizados, que foca nas taxas de verdadeiros e falsos positivos entre os grupos.
Os pesquisadores desenvolveram várias estratégias para reduzir preconceitos durante as etapas de Coleta de Dados, treinamento e operação. Técnicas como reamostragem e ajuste de dados de treinamento podem melhorar a equidade. Enquanto isso, práticas que otimizam o desempenho do sistema enquanto corrigem preconceitos estão ganhando atenção.
Tendências Atuais na Pesquisa de Equidade
À medida que o aprendizado de máquina continua a ser integrado em aplicações médicas, mais estudos estão sendo realizados para entender e limitar preconceitos. Recentemente, avaliações de saúde mental que analisam aspectos como prescrições de medicamentos, hábitos de telefone e até mesmo variabilidade da frequência cardíaca incorporaram técnicas de equidade. No entanto, ainda existe uma lacuna significativa na avaliação da equidade de sistemas automatizados que usam abordagens multimodais, como aqueles que integram dados visuais, linguísticos e auditivos.
Esse estudo busca avaliar um sistema de avaliação remota de saúde mental que usa vários tipos de dados para identificar condições de saúde mental. A pesquisa foca em comparar a equidade de diferentes tipos de dados e como ajustes podem ser feitos após o treinamento do sistema para reduzir preconceitos.
Metodologia de Pesquisa
O estudo utilizou um conjunto de dados de pesquisas anteriores. A aprovação foi obtida de comitês éticos relevantes para garantir que o estudo seguisse os protocolos de pesquisa. Os participantes foram divididos em grupos com base em seu estado de saúde mental, incluindo aqueles com e sem condições de saúde mental. Avaliações clínicas foram realizadas, e perguntas sobre demografia foram coletadas.
No total, os dados de 73 participantes com idades entre 18 e 65 anos foram analisados. As entrevistas foram realizadas online, e gravações de vídeo e áudio foram feitas. Além disso, os participantes foram categorizados com base em autoavaliações de depressão e ansiedade.
Avaliando a Qualidade dos Dados
A qualidade das gravações variou devido a diferentes condições de rede e dispositivos usados pelos participantes. Enquanto a qualidade do áudio permaneceu consistente, as gravações de vídeo exibiram diferenças notáveis. Um vídeo foi considerado de baixa qualidade se não atendesse a padrões específicos, como resolução ou iluminação. O estudo examinou se a qualidade do vídeo afetou o desempenho da Classificação com base na composição demográfica dos participantes.
Estrutura de Avaliação Multimodal
O estudo empregou uma estrutura para analisar diferentes fontes de dados, extraindo informações de áudio, sinais visuais, linguagem e sinais de frequência cardíaca. O objetivo era resumir esses sinais e avaliar quão efetivamente eles podiam identificar condições de saúde mental.
As expressões faciais foram analisadas por meio de vídeo, enquanto os dados de frequência cardíaca foram coletados usando uma técnica especializada. Recursos acústicos foram derivados das gravações de áudio. Além disso, características linguísticas foram coletadas a partir da transcrição das palavras faladas durante as entrevistas.
Vários métodos estatísticos foram aplicados para gerar recursos a nível de sujeito a partir dos dados, que foram então avaliados em tarefas de classificação. As técnicas incluíram votação majoritária e votação ponderada para melhor precisão entre os diferentes tipos de dados.
Métricas de Avaliação de Equidade
O estudo avaliou a equidade tanto do conjunto de dados quanto das classificações resultantes. A distribuição de vários grupos demográficos foi analisada, focando em com que frequência diferentes grupos foram identificados com condições de saúde mental.
As razões de paridade demográfica e as razões de odds equalizados foram calculadas para medir a equidade. Os resultados indicaram quão bem diferentes grupos foram representados em classificações positivas. Uma disparidade geral poderia indicar áreas em potencial que precisam de melhorias, permitindo que os pesquisadores abordem preconceitos efetivamente.
Resultados da Análise de Equidade
Os resultados mostraram que, mesmo que certos grupos demográficos possam ser maiores ou menores em número, isso nem sempre leva a um melhor desempenho em tarefas de classificação. Por exemplo, indivíduos mais velhos se saíram melhor nas avaliações do que participantes mais jovens em muitos casos. No entanto, isso variou significativamente com base nos recursos analisados.
A equidade entre classificadores para diferentes grupos demográficos variou bastante, muitas vezes levando a resultados inesperados. Classificadores de alto desempenho usando tipos específicos de recursos não conseguiram sempre alcançar níveis mais altos de equidade.
Mitigação da Injustiça
O estudo implementou estratégias para melhorar a equidade após as avaliações iniciais. Ajustando os limiares usados na classificação, os pesquisadores conseguiram aumentar a equidade entre os grupos demográficos. Os achados mostraram que, embora a equidade tenha melhorado, houve um trade-off com o desempenho geral da classificação.
O ajuste bem-sucedido dos limiares indica um passo positivo para futuras avaliações de saúde mental, enfatizando a importância da equidade entre diferentes grupos.
Discussão sobre Limitações
Embora o estudo tenha fornecido dados interessantes, havia limitações a considerar. O tamanho do grupo de participantes era relativamente pequeno, o que impactou a representação de grupos minoritários. Além disso, o conjunto de dados pode não refletir as demografias do mundo real, já que tendia a incluir indivíduos mais educados.
Pesquisas futuras devem buscar expandir além das abordagens atuais, incorporando métodos adicionais para mitigar a injustiça. Além disso, a avaliação contínua de vários fatores demográficos em sistemas automatizados de saúde mental será essencial.
Conclusão
Com os avanços em ferramentas automatizadas de avaliação de saúde mental, é crucial priorizar a equidade e o tratamento igualitário nesses sistemas. O estudo destacou a importância de entender preconceitos e implementar estratégias para reduzi-los efetivamente. Ao focar em metodologias de avaliação equitativas, o campo da saúde mental pode se aproximar de oferecer melhor cuidado para todos os indivíduos, garantindo que todos tenham acesso aos serviços de que precisam sem discriminação.
Título: Evaluating and mitigating unfairness in multimodal remote mental health assessments
Resumo: Research on automated mental health assessment tools has been growing in recent years, often aiming to address the subjectivity and bias that existed in the current clinical practice of the psychiatric evaluation process. Despite the substantial health and economic ramifications, the potential unfairness of those automated tools was understudied and required more attention. In this work, we systematically evaluated the fairness level in a multimodal remote mental health dataset and an assessment system, where we compared the fairness level in race, gender, education level, and age. Demographic parity ratio (DPR) and equalized odds ratio (EOR) of classifiers using different modalities were compared, along with the F1 scores in different demographic groups. Post-training classifier threshold optimization was employed to mitigate the unfairness. No statistically significant unfairness was found in the composition of the dataset. Varying degrees of unfairness were identified among modalities, with no single modality consistently demonstrating better fairness across all demographic variables. Post-training mitigation effectively improved both DPR and EOR metrics at the expense of a decrease in F1 scores. Addressing and mitigating unfairness in these automated tools are essential steps in fostering trust among clinicians, gaining deeper insights into their use cases, and facilitating their appropriate utilization. Author summaryIn this work, we systematically explored and discussed the unfairness reporting and mitigation of automated mental health assessment tools. These tools are becoming increasingly important in mental health practice, especially with the rise of telehealth services and large language model applications. However, they often carry inherent biases. Without proper assessment and mitigation, they potentially lead to unfair treatment of certain demographic groups and significant harm. Proper unfairness reporting and mitigation of these tools is the first step to building trust among clinicians and patients and ensuring appropriate application. Using our previously developed multimodal mental health assessment system, we evaluated the unfairness level of using various types of features of the subjects for mental health assessment, including facial expressions, acoustic features of the voice, emotions expressed through language, general language representations generated by large language models, and cardiovascular patterns detected from the face. We analyzed the systems fairness across different demographics: race, gender, education level, and age. We found no single modality consistently fair across all demographics. While unfairness mitigation methods improved the fairness level, we found a trade-off between the performance and the fairness level, calling for broader moral discussion and investigation on the topic.
Autores: Zifan Jiang, S. Seyedi, E. Griner, A. Abbasi, A. B. Rad, H. Kwon, R. O. Cotes, G. D. Clifford
Última atualização: 2023-11-22 00:00:00
Idioma: English
Fonte URL: https://www.medrxiv.org/content/10.1101/2023.11.21.23298803
Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.11.21.23298803.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.