Automatizando Resúmenes de Alta desde Registros Electrónicos de Salud
Este estudio investiga la generación automática de resúmenes de alta usando datos de EHR.
― 9 minilectura
Tabla de contenidos
La resumición de Registros Electrónicos de Salud (EHR) es sobre tomar registros de salud largos y hacerlos más cortos mientras se mantienen los detalles importantes. Esto ayuda a los proveedores de salud a trabajar más rápido y tomar mejores decisiones sobre el cuidado del paciente. Uno de los documentos más importantes en el hospital es el resumen de alta, que se escribe cuando un paciente se va. Estos documentos tardan mucho en escribirse, y este estudio tuvo como objetivo crear automáticamente estos resúmenes usando modelos informáticos modernos.
Objetivos
El objetivo de este estudio era ver si podíamos generar automáticamente resúmenes de alta hospitalaria a partir de EHRs utilizando modelos informáticos específicos. Analizamos diferentes formas de preparar los datos y entrenar estos modelos para hacer los resúmenes.
Métodos
Utilizamos el Conjunto de datos MIMIC-III, que incluye notas de enfermería y resúmenes de alta. Probamos cuatro modelos avanzados llamados BART, T5, Longformer y FLAN-T5 para ver qué tan bien podían crear diferentes secciones de un resumen de alta. Nuestros hallazgos mostraron que usar notas de enfermería como fuente y secciones específicas del resumen de alta como objetivo producía mejores resultados.
Descubrimos que el modelo BART mejoró significativamente después del entrenamiento, con un aumento de puntaje del 43.6% en comparación con su versión original. El modelo T5 generalmente tuvo mejor puntaje que los demás, mientras que el modelo FLAN-T5 logró la puntuación más alta en general.
Este trabajo muestra que podemos generar partes de resúmenes de alta automáticamente, lo que podría ayudar a reducir la carga de trabajo para los proveedores de salud. Entrenar los modelos con secciones específicas llevó a mejores resultados que intentar resumir todo el informe a la vez. Ajustar modelos que habían sido entrenados con instrucciones mostró mejores resultados al resumir informes completos.
El resumen de alta es un documento crucial que se encuentra en los EHR que detalla las condiciones médicas y el cuidado de un paciente durante su estancia en el hospital. Desafortunadamente, los profesionales médicos a menudo pasan más tiempo escribiendo estos resúmenes que cuidando a los pacientes, creando una carga en el sistema al compartir información de salud.
Desafíos
Muchos hospitales enfrentan dificultades al compartir información de salud entre instituciones. Los problemas comunes incluyen la falta de recursos, interfaces de software complicadas y dificultades para encontrar la información correcta. Para abordar estos problemas, examinamos cómo los modelos de lenguaje modernos pueden ayudar a crear conjuntos de datos organizados para los resúmenes de alta.
Investigaciones pasadas sugieren que trabajar con datos crudos, no anotados, puede ser más complejo que usar datos que han sido etiquetados. Sin embargo, dado que los datos no anotados son más accesibles, los usamos para crear conjuntos de datos anotados para entrenar modelos de lenguaje.
Hay dos tipos de resúmenes que estos modelos pueden producir: Extractivos y Abstractivos. Los resúmenes extractivos toman oraciones de los documentos originales, mientras que los abstractivos usan el propio lenguaje del modelo para resumir el contenido. Los modelos de lenguaje están ganando popularidad para resumir textos médicos y no médicos.
Preguntas de Investigación
Queríamos responder dos preguntas principales:
- ¿Cuáles modelos y métodos de entrenamiento son los mejores para resúmenes de texto médico de alta calidad?
- ¿Qué secciones de un resumen de alta podemos generar automáticamente usando notas de enfermería?
Resumición de Textos Generales
En esta sección, analizamos técnicas usadas en la resumición de textos generales. Las técnicas de resumición se pueden dividir en dos categorías principales: extractivas y abstractivas. La resumición extractiva selecciona oraciones de los textos originales para crear un resumen, mientras que la resumición abstractiva genera nuevas oraciones usando el vocabulario del modelo.
Un ejemplo de un modelo de resumición extractiva es el resumidor Luhn. Elige oraciones basándose en el número de palabras importantes presentes. Otro modelo común es LEAD-3, que selecciona las primeras tres oraciones del documento original. También hay modelos que encuentran temas dentro de los documentos para resumirlos.
BART es uno de los mejores modelos para resumición abstractiva. Utiliza una combinación de modelos de codificador y decodificador para crear sus salidas. Otros modelos incluyen T5, que se entrena en varias tareas relacionadas con textos, y Longformer, que puede manejar textos largos. FLAN-T5 es una versión mejorada de T5, entrenada en muchas tareas adicionales.
Para nuestro estudio, comparamos estos cuatro modelos: BART, T5, FLAN-T5 y Longformer. Elegimos BART por su sólido desempeño en diferentes conjuntos de datos de referencia. T5 se incluyó debido a su capacidad para realizar muchas tareas. Incluimos FLAN-T5 para averiguar cómo se compara con T5. Finalmente, probamos Longformer porque puede procesar documentos extensos mejor que la mayoría de los modelos.
Resumición de EHR
Los proveedores de salud a menudo luchan con la sobrecarga de información de los EHR, lo que lleva a menos tiempo con los pacientes. Hay una creciente demanda de sistemas automatizados para combinar informes clínicos en resúmenes médicos concisos. La mayoría de las resumiciones actuales de EHR utilizan métodos extractivos, lo que significa que toman oraciones directamente de los documentos médicos originales.
Algunos investigadores también han creado métodos abstractivos que resumen documentos médicos. Por ejemplo, algunos estudios generaron secciones específicas de informes utilizando hallazgos de otros documentos médicos.
Para manejar textos médicos largos mientras se producen resúmenes concisos, algunos métodos combinan técnicas extractivas y abstractivas. Nuestros diseños de conjunto de datos son similares, utilizando documentos clínicos crudos para crear pares fuente-objetivo. Esto nos permite entrenar nuestro modelo abstractivo principal.
Configuración del Estudio
Desarrollamos un conjunto de datos de entrenamiento utilizando datos de la base de datos MIMIC-III, que incluye información de más de 40,000 pacientes. Entre los diferentes tipos de notas, nos enfocamos en resúmenes de alta y notas de enfermería.
Para entrenar los modelos, creamos cinco configuraciones:
- Todas las notas de enfermería de un paciente fueron recopiladas y emparejadas con su resumen de alta más reciente.
- Combinamos las notas de enfermería más antiguas y más recientes y usamos el resumidor Luhn para crear el objetivo.
- La configuración es similar a la configuración 2, pero el objetivo incluye solo las primeras tres líneas de cada sección del resumen de alta.
- La nota de enfermería más reciente es la fuente, y la sección "Historia de la Enfermedad Actual" del resumen de alta es el objetivo.
- Esta configuración es como la 4, pero incluye tanto la "Historia de la Enfermedad Actual" como las "Instrucciones de Alta" como los objetivos.
Cada configuración contiene diferentes puntos de datos de entrenamiento, y reservamos datos para pruebas.
Métricas de Evaluación
Para medir los resúmenes producidos por cada configuración, usamos el sistema de puntuación ROUGE. ROUGE evalúa cuántas palabras o frases coinciden entre el texto generado y el texto real. ROUGE-1 mide unigramos, ROUGE-2 mide bigramas, y ROUGE-L mide la secuencia más larga de palabras compartidas.
Seleccionamos cuatro modelos para generar resúmenes según su capacidad para resumir texto. Cada modelo tenía sus fortalezas:
- BART es efectivo en reconocer información clave y crear resúmenes.
- T5 es versátil y puede adaptarse a varias tareas.
- Longformer se especializa en procesar documentos largos.
- FLAN-T5 es una versión avanzada de T5 que se desempeña bien en muchas tareas.
Resultados Cuantitativos
En nuestras pruebas, la versión ajustada de FLAN-T5 obtuvo la puntuación más alta en todas las configuraciones. Esto significa que pudo generar los resúmenes de alta con la mejor calidad. Los resultados indican que usar notas de enfermería efectivamente ayuda al modelo a crear resúmenes coherentes.
Para diferentes configuraciones, el rendimiento varió. En la configuración 1, FLAN-T5 lideró en puntajes, mientras que la configuración 2 vio a T5 como el mejor. La configuración 3 mostró a BART como el mejor, y en las configuraciones 4 y 5, BART nuevamente logró los puntajes más altos.
También analizamos qué tan fácil era para cada modelo aprender y generar resúmenes. La configuración 2 fue más desafiante que la configuración 1, pero las configuraciones 4 y 5 produjeron resultados similares.
Análisis Cualitativo
Además de los puntajes cuantitativos, también analizamos ejemplos específicos de resúmenes generados. Por ejemplo, un modelo mostró que podía identificar secciones como "Servicio" y "Alergias," pero a veces los detalles eran incorrectos.
Analizamos la precisión de la información en secciones como "Servicio," encontrando que aunque el modelo reconocía la sección, no siempre coincidía con el tipo de servicio correcto.
En otro ejemplo de un modelo de alto rendimiento, T5 generó dos secciones del resumen de alta con precisión, aunque algunas instrucciones de alta eran más generales que específicas.
Importancia Clínica
Los resúmenes de alta contienen información clave del paciente, pero crearlos puede llevar mucho tiempo. Automatizar este proceso podría ayudar a los proveedores de salud a pasar más tiempo con sus pacientes. Nuestro estudio mostró que algunos modelos de lenguaje podrían resumir eficazmente estos documentos importantes, especialmente FLAN-T5.
Los resultados indican que usar una combinación de notas de enfermería y enfocarse en las secciones correctas mejora el proceso de resumición.
Limitaciones y Trabajo Futuro
Solo utilizamos notas de enfermería para este estudio, pero otros tipos de documentos también podrían mejorar los resúmenes de alta. El trabajo futuro puede centrarse en usar diferentes tipos de notas para ver qué tan bien pueden crear resúmenes más factuales.
Nuestro objetivo es colaborar con profesionales médicos en investigaciones futuras, ayudando a mejorar el proceso de resumición con modelos más confiables y documentos médicos más claros.
Conclusión
Este artículo destaca el progreso realizado en la generación automática de resúmenes de alta a partir de registros médicos electrónicos. Descubrimos que utilizar notas de enfermería completas y crear resúmenes basados en secciones específicas puede mejorar la calidad de los textos generados en varios modelos. Más investigaciones pueden ayudar a refinar y ampliar estos métodos, llevando a una documentación de atención médica más efectiva.
Título: Neural Summarization of Electronic Health Records
Resumen: Hospital discharge documentation is among the most essential, yet time-consuming documents written by medical practitioners. The objective of this study was to automatically generate hospital discharge summaries using neural network summarization models. We studied various data preparation and neural network training techniques that generate discharge summaries. Using nursing notes and discharge summaries from the MIMIC-III dataset, we studied the viability of the automatic generation of various sections of a discharge summary using four state-of-the-art neural network summarization models (BART, T5, Longformer and FLAN-T5). Our experiments indicated that training environments including nursing notes as the source, and discrete sections of the discharge summary as the target output (e.g. "History of Present Illness") improve language model efficiency and text quality. According to our findings, the fine-tuned BART model improved its ROUGE F1 score by 43.6% against its standard off-the-shelf version. We also found that fine-tuning the baseline BART model with other setups caused different degrees of improvement (up to 80% relative improvement). We also observed that a fine-tuned T5 generally achieves higher ROUGE F1 scores than other fine-tuned models and a fine-tuned FLAN-T5 achieves the highest ROUGE score overall, i.e., 45.6. For majority of the fine-tuned language models, summarizing discharge summary report sections separately outperformed the summarization the entire report quantitatively. On the other hand, fine-tuning language models that were previously instruction fine-tuned showed better performance in summarizing entire reports. This study concludes that a focused dataset designed for the automatic generation of discharge summaries by a language model can produce coherent Discharge Summary sections.
Autores: Koyena Pal, Seyed Ali Bahrainian, Laura Mercurio, Carsten Eickhoff
Última actualización: 2023-05-24 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2305.15222
Fuente PDF: https://arxiv.org/pdf/2305.15222
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://huggingface.co/
- https://huggingface.co/docs/transformers/model_doc/bart
- https://huggingface.co/facebook/bart-base
- https://huggingface.co/docs/transformers/model_doc/t5
- https://huggingface.co/t5-base
- https://huggingface.co/google/flan-t5-base
- https://huggingface.co/docs/transformers/main/en/model_doc/led
- https://huggingface.co/allenai/led-base-16384
- https://huggingface.co/metrics/rouge
- https://ctan.org/pkg/
- https://www.himconnect.ca/
- https://colab.research.google.com/drive/1GDSfGyw_MlzYYbmapFUItXdh2KcNn64c?usp=sharing
- https://colab.research.google.com/drive/130mfrPZ_mamI8ijyacOSwo225Jx5dNva?usp=sharing