MDace: Un Nuevo Conjunto de Datos para la Codificación Médica de Evidencias
MDace proporciona un recurso clave para mejorar la precisión de la codificación médica a través del apoyo basado en evidencia.
― 8 minilectura
Tabla de contenidos
- La Importancia de la Evidencia en la Codificación
- El Papel de la Codificación Asistida por Computadora (CAC)
- La Necesidad de un Conjunto de Datos de Evidencia de Código
- Presentando MDace: El Conjunto de Datos de Evidencia de Código
- Estructura del Conjunto de Datos MDace
- Importancia de los Métodos de Extracción de Evidencia
- Los Desafíos de la Clasificación de Múltiples Etiquetas en la Codificación Médica
- Analizando los Conjuntos de Datos MIMIC-III y MIMIC-IV
- El Proceso de Anotación para MDace
- Acuerdo Inter-Anotador y Control de Calidad
- Explorando las Estadísticas de MDace
- Los Beneficios de MDace para la Investigación en Codificación Médica
- Métodos de Extracción de Evidencia en Práctica
- Direcciones Futuras para MDace
- Conclusión
- Fuente original
- Enlaces de referencia
La Codificación Médica es clave en la atención médica. Se trata de asignar códigos a diagnósticos y procedimientos basados en las visitas de los pacientes a las instalaciones médicas. Hacerlo bien es necesario para la facturación y los reclamos de seguros. Sin embargo, la codificación puede ser complicada debido a la gran cantidad de códigos disponibles, las pautas específicas y la interpretación del codificador.
La Importancia de la Evidencia en la Codificación
En la codificación médica, es importante proporcionar evidencia que respalde los códigos seleccionados. Esta evidencia proviene de notas clínicas escritas por proveedores de atención médica. Cuando un codificador asigna un código para un diagnóstico o tratamiento de un paciente, debe poder señalar un texto específico en el registro médico que justifique ese código. Esto proporciona una conexión clara entre el código asignado y la información documentada en las historias clínicas del paciente.
El Papel de la Codificación Asistida por Computadora (CAC)
La Codificación Asistida por Computadora (CAC) es una tecnología diseñada para ayudar a los codificadores médicos en su trabajo. Utiliza procesamiento de lenguaje natural para analizar textos médicos y sugerir códigos basados en la documentación. Aunque la CAC puede agilizar el proceso de codificación, todavía necesita proporcionar la evidencia textual que respalde los códigos que sugiere. Esta necesidad significa que los sistemas de CAC deben demostrar no solo la precisión de los códigos, sino también la fiabilidad de la evidencia utilizada para apoyarlos.
La Necesidad de un Conjunto de Datos de Evidencia de Código
Crear un conjunto de datos que contenga evidencia que respalde los códigos en los registros médicos es una tarea desafiante. Requiere conocimiento especializado y experiencia tanto en prácticas de codificación como en terminología médica. Como resultado, no ha habido un conjunto de datos disponible públicamente que contenga este tipo de evidencia de código, lo que dificulta a investigadores y desarrolladores evaluar y mejorar los sistemas de CAC de manera efectiva.
Presentando MDace: El Conjunto de Datos de Evidencia de Código
MDace es un conjunto de datos recién desarrollado que aborda la necesidad de evidencia de código en la codificación médica. Está diseñado específicamente para una tarea de clasificación de múltiples etiquetas extrema, donde un documento médico largo puede llevar a que se asignen múltiples códigos de una extensa lista de posibles códigos. Construido a partir de un subconjunto de registros clínicos conocido como MIMIC-III, MDace contiene evidencia de código anotada por codificadores médicos profesionales. El conjunto de datos incluye historias clínicas de pacientes internados y tarifas profesionales, proporcionando un recurso integral para investigadores y profesionales.
Estructura del Conjunto de Datos MDace
MDace consta de dos partes principales: historias clínicas de pacientes internados (IP) y tarifas profesionales (Profee). El conjunto de datos incluye miles de tramos de evidencia vinculados a varios códigos de diagnóstico y procedimiento. Cada tramo contiene el código relevante y los segmentos de texto correspondientes en las notas clínicas. Estas anotaciones permiten un vínculo directo entre los códigos y su evidencia de apoyo, lo cual es crucial para evaluar los sistemas de CAC.
Importancia de los Métodos de Extracción de Evidencia
Con MDace, los investigadores pueden usar varios métodos para extraer evidencia de textos médicos. Estos métodos se implementan utilizando modelos de redes neuronales que ayudan a identificar y resaltar los segmentos de texto relevantes que justifican los códigos asignados. Esta capacidad de extracción de evidencia es vital para mejorar tanto la precisión como la interpretabilidad de las tecnologías de CAC.
Los Desafíos de la Clasificación de Múltiples Etiquetas en la Codificación Médica
La codificación médica a menudo es un problema de clasificación de múltiples etiquetas extrema. Esto significa que un solo documento médico puede contener numerosos códigos de una lista muy grande de códigos potenciales. El desafío no solo está en seleccionar los códigos correctos, sino también en identificar la evidencia apropiada para cada código. Los documentos en formato largo en la atención médica presentan dificultades adicionales, ya que contienen información extensa y requieren una lectura y análisis cuidadosos.
Analizando los Conjuntos de Datos MIMIC-III y MIMIC-IV
El conjunto de datos MIMIC-III es una rica fuente de registros clínicos de un centro médico, ofreciendo información sobre el cuidado del paciente, diagnósticos y procedimientos. Sin embargo, aunque MIMIC-III contiene códigos, carece de la asociación explícita entre los códigos y las notas clínicas que proporcionan la evidencia para su uso. En contraste, el recientemente liberado conjunto de datos MIMIC-IV mejora esto al incluir códigos ICD-10, pero aún no proporciona un conjunto de datos de referencia para la evidencia.
El Proceso de Anotación para MDace
Crear MDace implicó un riguroso proceso de anotación donde codificadores profesionales revisaron meticulosamente las notas clínicas, resaltaron los tramos de texto relevantes y asignaron los códigos apropiados basados en su formación y experiencia. Este proceso fue esencial para asegurar que la evidencia proporcionada en el conjunto de datos sea sólida y refleje con precisión las prácticas de codificación utilizadas en entornos del mundo real.
Acuerdo Inter-Anotador y Control de Calidad
Dada la complejidad de la codificación médica, no es raro que diferentes codificadores tengan interpretaciones variadas de la evidencia. Para abordar esto, el proceso de anotación incluyó evaluaciones de acuerdo inter-anotador, asegurando la consistencia y fiabilidad de las anotaciones de evidencia. Estas medidas ayudan a mantener altos estándares de calidad para el conjunto de datos.
Explorando las Estadísticas de MDace
MDace presenta estadísticas extensas sobre los gráficos anotados, códigos y tramos de evidencia, proporcionando valiosos conocimientos sobre la estructura del conjunto de datos. El conjunto de datos incluye un número considerable de códigos únicos y tramos de evidencia que fortalecen su aplicabilidad para la investigación y el desarrollo en tecnologías de codificación médica.
Los Beneficios de MDace para la Investigación en Codificación Médica
La introducción de MDace marca un avance significativo en el ámbito de la investigación en codificación médica. Al proporcionar un conjunto de datos accesible públicamente que contiene evidencia anotada, permite a los investigadores evaluar y mejorar los sistemas de CAC de manera más efectiva. El acceso a evidencia de código del mundo real es vital para desarrollar algoritmos que puedan extraer y justificar con precisión la codificación médica basada en la documentación clínica.
Métodos de Extracción de Evidencia en Práctica
El conjunto de datos MDace admite varios métodos de extracción de evidencia que aprovechan las tecnologías de aprendizaje profundo. Estos métodos pueden mejorar el rendimiento de los sistemas de CAC al permitirles identificar los tramos de texto relevantes que corresponden a los códigos asignados. Al establecer métricas de rendimiento de referencia utilizando estos métodos, los investigadores pueden evaluar la efectividad de diferentes enfoques en la extracción de evidencia.
Direcciones Futuras para MDace
Con MDace ahora disponible, los investigadores pueden explorar su uso junto con otros conjuntos de datos, como MIMIC-IV, para ampliar aún más la comprensión de la codificación médica. El trabajo futuro puede involucrar la expansión del conjunto de datos, la refinación de técnicas de extracción de evidencia y la integración de los hallazgos en aplicaciones prácticas dentro del sector salud.
Conclusión
MDace ofrece un nuevo recurso esencial para la comunidad de codificación médica. Al abordar los desafíos de la extracción de evidencia y proporcionar un conjunto de datos integral para la investigación, abre la puerta a avances en la codificación asistida por computadora, llevando a prácticas de codificación médica más precisas y eficientes. A medida que este campo evoluciona, las percepciones obtenidas de MDace y conjuntos de datos similares jugarán un papel crítico en dar forma al futuro de las tecnologías de codificación médica.
Título: MDACE: MIMIC Documents Annotated with Code Evidence
Resumen: We introduce a dataset for evidence/rationale extraction on an extreme multi-label classification task over long medical documents. One such task is Computer-Assisted Coding (CAC) which has improved significantly in recent years, thanks to advances in machine learning technologies. Yet simply predicting a set of final codes for a patient encounter is insufficient as CAC systems are required to provide supporting textual evidence to justify the billing codes. A model able to produce accurate and reliable supporting evidence for each code would be a tremendous benefit. However, a human annotated code evidence corpus is extremely difficult to create because it requires specialized knowledge. In this paper, we introduce MDACE, the first publicly available code evidence dataset, which is built on a subset of the MIMIC-III clinical records. The dataset -- annotated by professional medical coders -- consists of 302 Inpatient charts with 3,934 evidence spans and 52 Profee charts with 5,563 evidence spans. We implemented several evidence extraction methods based on the EffectiveCAN model (Liu et al., 2021) to establish baseline performance on this dataset. MDACE can be used to evaluate code evidence extraction methods for CAC systems, as well as the accuracy and interpretability of deep learning models for multi-label classification. We believe that the release of MDACE will greatly improve the understanding and application of deep learning technologies for medical coding and document classification.
Autores: Hua Cheng, Rana Jafari, April Russell, Russell Klopfer, Edmond Lu, Benjamin Striner, Matthew R. Gormley
Última actualización: 2023-07-07 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2307.03859
Fuente PDF: https://arxiv.org/pdf/2307.03859
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/3mcloud/MDACE/
- https://aclanthology.org/N07-1033.pdf
- https://aclanthology.org/D19-1565/
- https://we.mmm.com/wiki/display/HIS/MIMIC-III+Evidence+Annotation
- https://us-east-1.console.aws.amazon.com/elasticmapreduce/home?region=us-east-1#cluster-details:j-2V9358DW9JJIA
- https://localhost:8080/#/experiments/135/runs/256710f877054d8f8f89dad8ed8e402c
- https://localhost:8080/#/compare-runs?runs=
- https://localhost:8080/#/experiments/135/runs/81879007a5da4ec7ac0d022c54725097
- https://localhost:8080/#/experiments/135/runs/e14fa1ef974c409bb0033d3431564b1c
- https://localhost:8080/#/experiments/135/runs/19fa89dc410e4e4eb80a236b4eccbebe
- https://localhost:8080/#/experiments/135/runs/4498ca80b2ee4d31b3a39536efbc7ff2
- https://localhost:8080/#/experiments/135/runs/de7412872cf34e56a8e46fe38bbb22cd
- https://localhost:8080/#/experiments/135/runs/79439c8073854bf5a1cda10ed496ba29
- https://green-algorithms.org/
- https://inception-project.github.io/
- https://java.com/en/download/help/download
- https://inception-project.github.io/downloads/