Evaluando la extracción de apoyo social a partir de notas clínicas
El estudio compara sistemas basados en reglas y modelos de lenguaje para extraer datos de apoyo social.
― 7 minilectura
Tabla de contenidos
El Apoyo Social y el Aislamiento social son factores importantes que influyen en la salud. A menudo se incluyen en notas clínicas en lugar de estar registrados de manera ordenada en bases de datos. Esto dificulta que los doctores e investigadores encuentren y usen esta información. El procesamiento de lenguaje natural (NLP) es una tecnología que ayuda a extraer este tipo de información de textos automáticamente, haciendo el proceso más fácil y rápido.
Propósito del Estudio
Este estudio tiene como objetivo averiguar qué tan bien pueden dos sistemas diferentes extraer información sobre el apoyo social y el aislamiento social de notas clínicas. Un sistema se basa en reglas específicas, mientras que el otro utiliza un Modelo de Lenguaje grande. Comparando estos dos sistemas, la meta es ver cuál funciona mejor en diferentes entornos.
Datos y Métodos
El equipo de investigación recolectó notas clínicas de dos centros médicos: el Sistema de Salud Mount Sinai y Weill Cornell Medicine. Se etiquetaron cuidadosamente un total de 525 notas de encuentros psiquiátricos para crear un estándar de medición del rendimiento. El sistema basado en reglas usó palabras y frases específicas para buscar casos de apoyo e aislamiento social, mientras que el modelo de lenguaje utilizó un enfoque más flexible basado en su entrenamiento.
Resultados
Los resultados mostraron que el sistema basado en reglas fue más efectivo para identificar tanto el apoyo social como el aislamiento social en comparación con el modelo de lenguaje. Por ejemplo, el sistema basado en reglas tuvo una puntuación más alta en ambos centros médicos. Esto fue sorprendente ya que los modelos de lenguaje suelen desempeñarse mejor en tareas similares.
Discusión
Las diferencias en el rendimiento se pueden atribuir a cómo funciona cada sistema. El sistema basado en reglas siguió de cerca las pautas establecidas para la anotación, lo que llevó a resultados más precisos. En contraste, el modelo de lenguaje fue más inclusivo y a veces clasificó incorrectamente términos debido a su comprensión más amplia del lenguaje.
Importancia del Apoyo Social y Aislamiento
El apoyo social se refiere a la ayuda y el consuelo que las personas reciben de amigos, familia y la comunidad. Niveles más altos de apoyo social están relacionados con mejores resultados de salud, tanto físicos como mentales. Por otro lado, el aislamiento social puede llevar a problemas de salud graves, incluyendo problemas de salud mental y una mayor mortalidad. La necesidad de que los profesionales de la salud comprendan estos factores sociales es crítica para una mejor planificación de tratamientos y cuidado del paciente.
Investigación Previa
La mayoría de los estudios anteriores sobre el apoyo social y el aislamiento se basan en encuestas, que pueden ser limitadas en alcance y tamaño. Ha habido menos enfoque en extraer esta información de notas clínicas reales. Esta investigación busca llenar ese vacío utilizando herramientas de NLP para analizar los EHR, que contienen información valiosa sobre las situaciones sociales de los pacientes.
Desafíos en la Extracción de Datos
Extraer datos de notas clínicas presenta desafíos debido al lenguaje variado que usan los doctores y la falta de datos estructurados. Los métodos tradicionales a menudo requieren esfuerzo manual, lo que consume tiempo. El NLP puede automatizar este proceso, pero la efectividad depende del sistema utilizado.
Enfoques para la Extracción de Datos
Existen tres métodos principales para extraer apoyo social y aislamiento de datos clínicos:
Sistemas basados en reglas: Esto implica usar una lista de palabras y reglas para encontrar menciones relevantes en el texto. Puede ser preciso pero requiere mucho esfuerzo para crear y mantener las reglas.
Modelos de Aprendizaje Automático: Estos sistemas requieren grandes cantidades de datos etiquetados para entrenar de manera efectiva. Pueden ser beneficiosos, pero a menudo tienen un rendimiento inferior comparado con los sistemas basados en reglas.
Modelos de Lenguaje Grande (LLMs): Estos son modelos avanzados que pueden generar texto similar al humano. Pueden aprender de grandes cantidades de datos y realizar varias tareas con poco ajuste. Sin embargo, pueden actuar como una "caja negra", lo que dificulta entender su proceso de toma de decisiones.
El Papel de los Léxicos
Para desarrollar un sistema basado en reglas, los investigadores crearon primero un léxico de términos relacionados con el apoyo social y el aislamiento. Revisaron notas clínicas para identificar palabras y frases que representen con precisión estos conceptos. Este léxico fue crucial para el éxito del sistema.
Proceso de anotación
Para crear un estándar de oro para medir el rendimiento, los investigadores anotaron notas clínicas con categorías específicas de apoyo social y aislamiento. Siguieron pautas estrictas para asegurar consistencia en el etiquetado.
Evaluación de los Sistemas
Ambos sistemas fueron evaluados en función de su capacidad para clasificar con precisión casos de apoyo social y aislamiento. El sistema basado en reglas superó consistentemente al modelo de lenguaje en diferentes métricas, lo cual fue inesperado dado la percepción común de que los LLM son superiores.
Comparaciones con Códigos Existentes
El estudio también analizó qué tan bien se comparaban estos sistemas con prácticas de codificación existentes como los códigos ICD. Ninguna de las notas clínicas evaluadas tenía códigos ICD correspondientes para el aislamiento social, lo que enfatiza la importancia de los sistemas de NLP para identificar estos factores.
Conclusión
El estudio demostró con éxito las fortalezas y debilidades de los métodos basados en reglas y en modelos de lenguaje para extraer apoyo social y aislamiento de notas clínicas. El sistema basado en reglas mostró mejor precisión, lo que es particularmente importante en entornos clínicos donde la precisión es crucial. Ambos sistemas pueden adaptarse y estar disponibles para otros investigadores y proveedores de atención médica.
Direcciones Futuras
Aún hay mucho trabajo por hacer para mejorar estos sistemas, especialmente en lo que respecta a perfeccionar la precisión del modelo de lenguaje. La investigación futura se enfocará en hacer que los sistemas sean más portátiles en diferentes entornos de atención médica. La validación continua y las actualizaciones de los léxicos y reglas también serán esenciales para asegurar la efectividad.
Resumen
En resumen, esta investigación destaca la importancia del apoyo social y el aislamiento en la salud mental y muestra el potencial del NLP para convertir información clínica no estructurada en datos útiles. Al mejorar las formas en que extraemos esta información, los proveedores de atención médica pueden comprender mejor y abordar los factores sociales que afectan la salud del paciente.
Conclusiones Clave
- El apoyo social y el aislamiento impactan significativamente en los resultados de salud.
- Los métodos tradicionales de recolección de datos a menudo son limitados.
- El NLP puede automatizar la extracción de factores sociales importantes de las notas clínicas.
- Los sistemas basados en reglas actualmente superan a los modelos de lenguaje en precisión para esta tarea.
- Los hallazgos pueden ayudar a mejorar la planificación de tratamientos y el cuidado del paciente.
Título: Extracting Social Support and Social Isolation Information from Clinical Psychiatry Notes: Comparing a Rule-based NLP System and a Large Language Model
Resumen: Background: Social support (SS) and social isolation (SI) are social determinants of health (SDOH) associated with psychiatric outcomes. In electronic health records (EHRs), individual-level SS/SI is typically documented as narrative clinical notes rather than structured coded data. Natural language processing (NLP) algorithms can automate the otherwise labor-intensive process of data extraction. Data and Methods: Psychiatric encounter notes from Mount Sinai Health System (MSHS, n=300) and Weill Cornell Medicine (WCM, n=225) were annotated and established a gold standard corpus. A rule-based system (RBS) involving lexicons and a large language model (LLM) using FLAN-T5-XL were developed to identify mentions of SS and SI and their subcategories (e.g., social network, instrumental support, and loneliness). Results: For extracting SS/SI, the RBS obtained higher macro-averaged f-scores than the LLM at both MSHS (0.89 vs. 0.65) and WCM (0.85 vs. 0.82). For extracting subcategories, the RBS also outperformed the LLM at both MSHS (0.90 vs. 0.62) and WCM (0.82 vs. 0.81). Discussion and Conclusion: Unexpectedly, the RBS outperformed the LLMs across all metrics. Intensive review demonstrates that this finding is due to the divergent approach taken by the RBS and LLM. The RBS were designed and refined to follow the same specific rules as the gold standard annotations. Conversely, the LLM were more inclusive with categorization and conformed to common English-language understanding. Both approaches offer advantages and are made available open-source for future testing.
Autores: Braja Gopal Patra, Lauren A. Lepow, Praneet Kasi Reddy Jagadeesh Kumar, Veer Vekaria, Mohit Manoj Sharma, Prakash Adekkanattu, Brian Fennessy, Gavin Hynes, Isotta Landi, Jorge A. Sanchez-Ruiz, Euijung Ryu, Joanna M. Biernacka, Girish N. Nadkarni, Ardesheer Talati, Myrna Weissman, Mark Olfson, J. John Mann, Alexander W. Charney, Jyotishman Pathak
Última actualización: 2024-03-25 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2403.17199
Fuente PDF: https://arxiv.org/pdf/2403.17199
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.