MDace : Un nouveau dataset pour le codage médical des preuves
MDace offre une ressource essentielle pour améliorer la précision du codage médical grâce à un soutien basé sur des preuves.
― 7 min lire
Table des matières
- L'Importance de la Preuve dans le Codage
- Le Rôle du Codage Assisté par Ordinateur (CAC)
- Le Besoin d'un Ensemble de Données de Preuves de Codes
- Présentation de MDace : L'Ensemble de Données de Preuves de Codes
- Structure de l'Ensemble de Données MDace
- Importance des Méthodes d'Extraction de Preuves
- Les Défis de la Classification Multi-Label dans le Codage Médical
- Analyse des Ensembles de Données MIMIC-III et MIMIC-IV
- Le Processus d'Annotation pour MDace
- Accord Inter-Annoteur et Contrôle de Qualité
- Exploration des Statistiques de MDace
- Les Avantages de MDace pour la Recherche en Codage Médical
- Méthodes d'Extraction de Preuves en Pratique
- Directions Futures pour MDace
- Conclusion
- Source originale
- Liens de référence
Le Codage Médical est super important dans le domaine de la santé. Ça consiste à attribuer des codes aux diagnostics et aux procédures en fonction des visites des patients dans les établissements de santé. Un codage correct est nécessaire pour la facturation et les demandes d'assurance. Mais bon, le codage peut être compliqué à cause du nombre énorme de codes disponibles, des directives spécifiques et de l'interprétation du codeur.
L'Importance de la Preuve dans le Codage
Dans le codage médical, il est crucial de fournir des Preuves qui soutiennent les codes choisis. Ces preuves viennent des notes cliniques écrites par les prestataires de soins. Quand un codeur attribue un code pour un diagnostic ou un traitement d'un patient, il doit pouvoir pointer vers un texte spécifique dans le dossier médical qui justifie ce code. Ça établit un lien clair entre le code attribué et les informations notées dans les dossiers du patient.
Le Rôle du Codage Assisté par Ordinateur (CAC)
Le Codage Assisté par Ordinateur (CAC) est une technologie conçue pour aider les codeurs médicaux dans leur travail. Elle utilise le traitement du langage naturel pour analyser les textes médicaux et suggérer des codes basés sur la documentation. Même si le CAC peut simplifier le processus de codage, il doit toujours fournir les preuves textuelles soutenant les codes qu'il propose. Ça veut dire que les systèmes de CAC doivent démontrer non seulement l'exactitude des codes mais aussi la fiabilité des preuves utilisées pour les soutenir.
Le Besoin d'un Ensemble de Données de Preuves de Codes
Créer un ensemble de données contenant des preuves soutenant les codes dans les dossiers médicaux est un vrai défi. Ça nécessite des connaissances spécialisées et de l'expertise tant en pratiques de codage qu'en terminologie médicale. Du coup, il n'y a pas d'ensemble de données disponible publiquement contenant ce type de preuve de code, ce qui complique les choses pour les chercheurs et les développeurs qui veulent évaluer et améliorer les systèmes de CAC.
Présentation de MDace : L'Ensemble de Données de Preuves de Codes
MDace est un nouvel ensemble de données qui répond au besoin de preuves de codes dans le codage médical. Il est spécialement conçu pour une tâche de classification multi-label extrême, où un long document médical peut entraîner l'attribution de plusieurs codes d'une vaste liste de codes possibles. Construit à partir d'un sous-ensemble de dossiers cliniques connu sous le nom de MIMIC-III, MDace contient des preuves de codes annotées par des codeurs médicaux professionnels. L'ensemble de données inclut des dossiers d'hospitalisation et des dossiers de frais professionnels, fournissant une ressource complète pour les chercheurs et les praticiens.
Structure de l'Ensemble de Données MDace
MDace se compose de deux parties principales : les dossiers d'hospitalisation (IP) et les dossiers de frais professionnels (Profee). L'ensemble de données inclut des milliers de plages de preuves liées à divers codes de diagnostic et de procédure. Chaque plage contient le code pertinent et les segments de texte correspondants dans les notes cliniques. Ces annotations permettent d'établir un lien direct entre les codes et leurs preuves, ce qui est crucial pour évaluer les systèmes CAC.
Importance des Méthodes d'Extraction de Preuves
Avec MDace, les chercheurs peuvent utiliser diverses méthodes pour extraire des preuves des textes médicaux. Ces méthodes sont mises en œuvre à l'aide de modèles de réseaux neuronaux qui aident à identifier et mettre en avant les segments de texte pertinents justifiant les codes attribués. Cette capacité d'extraction de preuves est vitale pour améliorer à la fois l'exactitude et l'interprétabilité des technologies CAC.
Les Défis de la Classification Multi-Label dans le Codage Médical
Le codage médical est souvent un problème de classification multi-label extrême. Ça veut dire qu'un seul document médical peut contenir de nombreux codes d'une très grande liste de codes potentiels. Le défi n'est pas seulement de sélectionner les bons codes mais aussi d'identifier les preuves appropriées pour chaque code. Les documents en long format dans le domaine de la santé posent des difficultés supplémentaires, car ils contiennent beaucoup d'informations et demandent une lecture et une analyse attentives.
Analyse des Ensembles de Données MIMIC-III et MIMIC-IV
L'ensemble de données MIMIC-III est une ressource riche en dossiers cliniques d'un centre médical, offrant des aperçus sur les soins aux patients, les diagnostics et les procédures. Cependant, bien que MIMIC-III contienne des codes, il lui manque l'association explicite entre les codes et les notes cliniques fournissant les preuves de leur utilisation. En revanche, l'ensemble de données MIMIC-IV récemment publié améliore cette situation en incluant des codes ICD-10 mais ne fournit toujours pas d'ensemble de données de référence pour les preuves.
Le Processus d'Annotation pour MDace
La création de MDace a impliqué un processus d'annotation rigoureux où des codeurs professionnels ont minutieusement passé en revue les notes cliniques, mis en évidence des plages de texte pertinentes et attribué les codes appropriés en fonction de leur formation et expertise. Ce processus était essentiel pour s'assurer que les preuves fournies dans l'ensemble de données sont solides et reflètent avec précision les pratiques de codage utilisées dans des environnements réels.
Accord Inter-Annoteur et Contrôle de Qualité
Vu la complexité du codage médical, il n'est pas rare que différents codeurs aient des interprétations variées des preuves. Pour y remédier, le processus d'annotation a inclus des évaluations de l'accord inter-annoteur, garantissant la cohérence et la fiabilité des annotations de preuves. Ces mesures aident à maintenir des standards de haute qualité pour l'ensemble de données.
Exploration des Statistiques de MDace
MDace présente des statistiques détaillées concernant les charts annotés, les codes et les plages de preuves, offrant des aperçus précieux sur la structure de l'ensemble de données. L'ensemble de données inclut un nombre substantiel de codes uniques et de plages de preuves qui renforcent son applicabilité pour la recherche et le développement dans les technologies de codage médical.
Les Avantages de MDace pour la Recherche en Codage Médical
L'introduction de MDace marque un progrès significatif dans le domaine de la recherche en codage médical. En fournissant un ensemble de données accessible au public contenant des preuves annotées, il permet aux chercheurs d'évaluer et d'améliorer les systèmes CAC de manière plus efficace. L'accès à des preuves de codes réelles est vital pour développer des algorithmes capables d'extraire et de justifier avec précision le codage médical basé sur la documentation clinique.
Méthodes d'Extraction de Preuves en Pratique
L'ensemble de données MDace supporte diverses méthodes d'extraction de preuves qui exploitent les technologies d'apprentissage profond. Ces méthodes peuvent améliorer la performance des systèmes CAC en leur permettant d'identifier les plages de texte pertinentes qui correspondent aux codes attribués. En établissant des métriques de performance de base en utilisant ces méthodes, les chercheurs peuvent évaluer l'efficacité des différentes approches en extraction de preuves.
Directions Futures pour MDace
Avec MDace maintenant disponible, les chercheurs peuvent explorer son utilisation en conjonction avec d'autres ensembles de données, comme MIMIC-IV, pour approfondir la compréhension du codage médical. Les travaux futurs pourraient impliquer l'expansion de l'ensemble de données, l'affinement des techniques d'extraction de preuves et l'intégration des résultats dans des applications pratiques au sein du secteur de la santé.
Conclusion
MDace offre une nouvelle ressource essentielle pour la communauté du codage médical. En s'attaquant aux défis de l'extraction de preuves et en fournissant un ensemble de données complet pour la recherche, il ouvre la voie à des avancées dans le codage assisté par ordinateur, menant finalement à des pratiques de codage médical plus précises et efficaces. Alors que ce domaine évolue, les connaissances tirées de MDace et d'ensembles de données similaires joueront un rôle crucial dans la définition de l'avenir des technologies de codage médical.
Titre: MDACE: MIMIC Documents Annotated with Code Evidence
Résumé: We introduce a dataset for evidence/rationale extraction on an extreme multi-label classification task over long medical documents. One such task is Computer-Assisted Coding (CAC) which has improved significantly in recent years, thanks to advances in machine learning technologies. Yet simply predicting a set of final codes for a patient encounter is insufficient as CAC systems are required to provide supporting textual evidence to justify the billing codes. A model able to produce accurate and reliable supporting evidence for each code would be a tremendous benefit. However, a human annotated code evidence corpus is extremely difficult to create because it requires specialized knowledge. In this paper, we introduce MDACE, the first publicly available code evidence dataset, which is built on a subset of the MIMIC-III clinical records. The dataset -- annotated by professional medical coders -- consists of 302 Inpatient charts with 3,934 evidence spans and 52 Profee charts with 5,563 evidence spans. We implemented several evidence extraction methods based on the EffectiveCAN model (Liu et al., 2021) to establish baseline performance on this dataset. MDACE can be used to evaluate code evidence extraction methods for CAC systems, as well as the accuracy and interpretability of deep learning models for multi-label classification. We believe that the release of MDACE will greatly improve the understanding and application of deep learning technologies for medical coding and document classification.
Auteurs: Hua Cheng, Rana Jafari, April Russell, Russell Klopfer, Edmond Lu, Benjamin Striner, Matthew R. Gormley
Dernière mise à jour: 2023-07-07 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2307.03859
Source PDF: https://arxiv.org/pdf/2307.03859
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/3mcloud/MDACE/
- https://aclanthology.org/N07-1033.pdf
- https://aclanthology.org/D19-1565/
- https://we.mmm.com/wiki/display/HIS/MIMIC-III+Evidence+Annotation
- https://us-east-1.console.aws.amazon.com/elasticmapreduce/home?region=us-east-1#cluster-details:j-2V9358DW9JJIA
- https://localhost:8080/#/experiments/135/runs/256710f877054d8f8f89dad8ed8e402c
- https://localhost:8080/#/compare-runs?runs=
- https://localhost:8080/#/experiments/135/runs/81879007a5da4ec7ac0d022c54725097
- https://localhost:8080/#/experiments/135/runs/e14fa1ef974c409bb0033d3431564b1c
- https://localhost:8080/#/experiments/135/runs/19fa89dc410e4e4eb80a236b4eccbebe
- https://localhost:8080/#/experiments/135/runs/4498ca80b2ee4d31b3a39536efbc7ff2
- https://localhost:8080/#/experiments/135/runs/de7412872cf34e56a8e46fe38bbb22cd
- https://localhost:8080/#/experiments/135/runs/79439c8073854bf5a1cda10ed496ba29
- https://green-algorithms.org/
- https://inception-project.github.io/
- https://java.com/en/download/help/download
- https://inception-project.github.io/downloads/