Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ciencias de la Salud# Psiquiatría y Psicología Clínica

Equidad en Evaluaciones Automáticas de Salud Mental

Examinando los sesgos en las herramientas de evaluación de salud mental y su impacto en el tratamiento.

― 8 minilectura


Sesgo en Herramientas deSesgo en Herramientas deSalud Mentalmental.evaluaciones automáticas de saludLa investigación revela fallos en las
Tabla de contenidos

Los problemas de salud mental afectan a mucha gente en todo el mundo. Se estima que alrededor de mil millones de personas viven con un trastorno mental, pero muchas no reciben la ayuda que necesitan. En los últimos años, ha habido un aumento en los servicios de telemedicina para la salud mental, especialmente después de la pandemia de COVID-19, ya que ofrece opciones de atención más asequibles y accesibles. Sin embargo, los diagnósticos de salud mental a menudo incluyen opiniones subjetivas y prejuicios personales, lo que puede llevar a un trato injusto y a diagnósticos erróneos, especialmente para ciertos grupos.

La Importancia de la Equidad en las Evaluaciones de Salud Mental

En las evaluaciones de salud mental, es crucial que todos sean tratados de manera justa, sin importar su origen o identidad. Por ejemplo, algunos grupos, como los afroamericanos, pueden enfrentar prejuicios en sus diagnósticos. Los métodos estándar de evaluación de salud mental, como los cuestionarios autoinformados, pueden verse influenciados por percepciones personales, lo que lleva a inconsistencias en el tratamiento y la atención.

Se han desarrollado herramientas digitales automatizadas para proporcionar evaluaciones más objetivas. Estas herramientas rastrean varios indicadores relacionados con las condiciones de salud mental, y su objetivo es minimizar los prejuicios y brindar un mejor apoyo a las poblaciones desatendidas. Sin embargo, incluso estos sistemas automatizados pueden llevar prejuicios si dependen de datos de entrenamiento defectuosos o tienen Sesgos inherentes en su diseño.

Las Fuentes de Prejuicio en los Sistemas Automatizados

Varios factores contribuyen al prejuicio dentro de las evaluaciones automatizadas de salud mental. El primero implica las etiquetas utilizadas para categorizar las condiciones de salud mental durante el entrenamiento de estos sistemas. Segundo, los datos recopilados pueden estar sesgados hacia ciertos demográficos, creando una visión imbalanced. Por último, los modelos preentrenados que ya tienen sesgos pueden perpetuar aún más estos problemas en los nuevos sistemas.

La equidad en estas evaluaciones automatizadas es un área de investigación en crecimiento. Muchos estudios se centran en cómo medir y combatir los prejuicios, especialmente en sistemas que clasifican a las personas en categorías basadas en datos.

Métodos para Evaluar la Equidad

Para asegurar la equidad en las evaluaciones automatizadas de salud mental, los investigadores suelen observar cómo se trata a los diferentes grupos demográficos. Un método común es evaluar la distribución de resultados positivos entre varios grupos y compararlo con un grupo privilegiado. Se utilizan varias medidas de equidad, incluyendo la paridad demográfica, donde todos los grupos deberían tener las mismas tasas de evaluación positiva, y las probabilidades igualadas, que se enfocan en las tasas de verdaderos y falsos positivos entre grupos.

Los investigadores han desarrollado varias estrategias para reducir prejuicios durante las etapas de recopilación de datos, entrenamiento y operación. Técnicas como el re-muestreo y el ajuste de datos de entrenamiento pueden mejorar la equidad. Mientras tanto, las prácticas que optimizan el rendimiento del sistema mientras corrigen los sesgos están ganando atención.

Tendencias Actuales en la Investigación de la Equidad

A medida que el aprendizaje automático continúa integrándose en aplicaciones médicas, se están realizando más estudios para entender y limitar los prejuicios. Recientemente, las evaluaciones de salud mental que analizan aspectos como las prescripciones de medicamentos, los hábitos telefónicos e incluso la variabilidad de la frecuencia cardíaca han incorporado técnicas de equidad. Sin embargo, sigue habiendo una brecha significativa en la evaluación de la equidad de los sistemas automatizados que utilizan enfoques multimodales, como aquellos que integran datos visuales, lingüísticos y auditivos.

Este estudio busca evaluar un sistema de evaluación remota de salud mental que utiliza varios tipos de datos para identificar condiciones de salud mental. La investigación se centra en comparar la equidad de diferentes tipos de datos y cómo se pueden hacer ajustes después del entrenamiento del sistema para reducir el sesgo.

Metodología de Investigación

El estudio utilizó un conjunto de datos de investigaciones anteriores. Se obtuvo aprobación de los comités éticos relevantes para asegurar que el estudio se adhiriera a los protocolos de investigación. Los participantes fueron divididos en grupos según su estado de salud mental, incluyendo aquellos con y sin condiciones de salud mental. Se llevaron a cabo evaluaciones clínicas y se recopilaron preguntas sobre demografía.

En total, se analizaron datos de 73 participantes de entre 18 y 65 años. Las entrevistas se realizaron en línea, y se tomaron grabaciones de video y audio. Además, los participantes fueron categorizados según evaluaciones autoinformadas de depresión y ansiedad.

Evaluación de la Calidad de los Datos

La calidad de las grabaciones variaba debido a diferentes condiciones de red y dispositivos utilizados por los participantes. Mientras que la calidad de audio se mantuvo consistente, las grabaciones de video mostraron diferencias notables. Un video se consideraba de baja calidad si no cumplía con ciertos estándares, como la resolución o la iluminación. El estudio examinó si la calidad del video afectaba el rendimiento de Clasificación según la composición demográfica de los participantes.

Marco de Evaluación Multimodal

El estudio empleó un marco para analizar diferentes fuentes de datos, extrayendo información de señales de audio, indicios visuales, lenguaje y señales de frecuencia cardíaca. El objetivo era resumir estas señales y evaluar cuán efectivamente podrían identificar condiciones de salud mental.

Las expresiones faciales fueron analizadas a través de video, mientras que los datos de la frecuencia cardíaca se recopilaron utilizando una técnica especializada. Las características acústicas fueron derivadas de grabaciones de audio. Además, las características lingüísticas se recopilaron transcribiendo las palabras habladas durante las entrevistas.

Se aplicaron varios métodos estadísticos para generar características a nivel de sujeto a partir de los datos, que luego se evaluaron en tareas de clasificación. Las técnicas incluyeron votación mayoritaria y votación ponderada para una mejor precisión en diferentes tipos de datos.

Métricas de Evaluación de la Equidad

El estudio evaluó la equidad tanto del conjunto de datos como de las clasificaciones resultantes. Se analizó la distribución de varios grupos demográficos, centrándose en cuán a menudo se identificaban diferentes grupos con condiciones de salud mental.

Se calcularon razones de paridad demográfica y razones de probabilidades igualadas para medir la equidad. Los resultados indicaron cuán bien estaban representados diferentes grupos en las clasificaciones positivas. Una disparidad general podría indicar áreas potenciales que necesitan mejoramiento, permitiendo a los investigadores abordar los prejuicios de manera efectiva.

Resultados del Análisis de Equidad

Los resultados mostraron que, aunque ciertos grupos demográficos podrían ser más grandes o más pequeños en número, esto no siempre conducía a un mejor rendimiento en las tareas de clasificación. Por ejemplo, los individuos mayores tuvieron un mejor desempeño en las evaluaciones que los participantes más jóvenes en muchos casos. Sin embargo, esto variaba significativamente según las características que se estaban analizando.

La equidad entre clasificadores para diferentes grupos demográficos variaba enormemente, a menudo llevando a resultados inesperados. Los clasificadores de alto rendimiento que utilizaban tipos específicos de características no siempre alcanzaron niveles más altos de equidad.

Mitigación de la Injusticia

El estudio implementó estrategias para mejorar la equidad después de las evaluaciones iniciales. Al ajustar los umbrales utilizados en la clasificación, los investigadores pudieron mejorar la equidad entre los grupos demográficos. Los hallazgos demostraron que, aunque la equidad mejoró, hubo un intercambio con el rendimiento general de la clasificación.

El ajuste exitoso de los umbrales indica un paso positivo hacia adelante para futuras evaluaciones de salud mental, enfatizando la importancia de la equidad entre diferentes grupos.

Discusión sobre Limitaciones

Si bien el estudio proporcionó datos valiosos, había limitaciones a considerar. El tamaño del grupo de participantes era relativamente pequeño, lo que impactó la representación de grupos minoritarios. Además, el conjunto de datos puede no reflejar demográficos más amplios del mundo real, ya que tendía a incluir a personas más educadas.

La investigación futura debería buscar expandirse más allá de los enfoques actuales, incorporando métodos adicionales para mitigar la injusticia. Además, la evaluación continua de varios factores demográficos en los sistemas automatizados de salud mental será esencial.

Conclusión

Con los avances en las herramientas automatizadas de evaluación de salud mental, es crucial priorizar la equidad y el trato igual en estos sistemas. El estudio destacó la importancia de entender los prejuicios e implementar estrategias para reducirlos efectivamente. Al centrarse en metodologías de evaluación equitativas, el campo de la salud mental puede acercarse más a proporcionar una mejor atención para todos, asegurando que todos tengan acceso a los servicios que necesitan sin discriminación.

Fuente original

Título: Evaluating and mitigating unfairness in multimodal remote mental health assessments

Resumen: Research on automated mental health assessment tools has been growing in recent years, often aiming to address the subjectivity and bias that existed in the current clinical practice of the psychiatric evaluation process. Despite the substantial health and economic ramifications, the potential unfairness of those automated tools was understudied and required more attention. In this work, we systematically evaluated the fairness level in a multimodal remote mental health dataset and an assessment system, where we compared the fairness level in race, gender, education level, and age. Demographic parity ratio (DPR) and equalized odds ratio (EOR) of classifiers using different modalities were compared, along with the F1 scores in different demographic groups. Post-training classifier threshold optimization was employed to mitigate the unfairness. No statistically significant unfairness was found in the composition of the dataset. Varying degrees of unfairness were identified among modalities, with no single modality consistently demonstrating better fairness across all demographic variables. Post-training mitigation effectively improved both DPR and EOR metrics at the expense of a decrease in F1 scores. Addressing and mitigating unfairness in these automated tools are essential steps in fostering trust among clinicians, gaining deeper insights into their use cases, and facilitating their appropriate utilization. Author summaryIn this work, we systematically explored and discussed the unfairness reporting and mitigation of automated mental health assessment tools. These tools are becoming increasingly important in mental health practice, especially with the rise of telehealth services and large language model applications. However, they often carry inherent biases. Without proper assessment and mitigation, they potentially lead to unfair treatment of certain demographic groups and significant harm. Proper unfairness reporting and mitigation of these tools is the first step to building trust among clinicians and patients and ensuring appropriate application. Using our previously developed multimodal mental health assessment system, we evaluated the unfairness level of using various types of features of the subjects for mental health assessment, including facial expressions, acoustic features of the voice, emotions expressed through language, general language representations generated by large language models, and cardiovascular patterns detected from the face. We analyzed the systems fairness across different demographics: race, gender, education level, and age. We found no single modality consistently fair across all demographics. While unfairness mitigation methods improved the fairness level, we found a trade-off between the performance and the fairness level, calling for broader moral discussion and investigation on the topic.

Autores: Zifan Jiang, S. Seyedi, E. Griner, A. Abbasi, A. B. Rad, H. Kwon, R. O. Cotes, G. D. Clifford

Última actualización: 2023-11-22 00:00:00

Idioma: English

Fuente URL: https://www.medrxiv.org/content/10.1101/2023.11.21.23298803

Fuente PDF: https://www.medrxiv.org/content/10.1101/2023.11.21.23298803.full.pdf

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a medrxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares