Evaluando modelos GPT para la generación de códigos ICD
Este estudio revisa qué tan bien generan códigos de facturación ICD GPT-3.5 y GPT-4.
― 6 minilectura
Tabla de contenidos
La Clasificación Internacional de Enfermedades (CIE) es el sistema principal que se usa en todo el mundo para codificar condiciones y procedimientos médicos. Este sistema es clave para mantener registros de salud, rastrear la salud pública, hacer investigaciones y facturar servicios médicos.
En los últimos años, los Modelos de Lenguaje Grande (MLGs), como GPT-3.5 y GPT-4, han surgido como herramientas poderosas que pueden procesar y generar texto similar al humano. Estos modelos han demostrado que pueden realizar varias tareas, incluyendo responder preguntas relacionadas con la salud, escribir piezas creativas e incluso ayudar a los doctores manejando tareas administrativas.
Hay esperanza de que estos modelos avanzados puedan ayudar a automatizar el proceso de asignación de códigos CIE a descripciones médicas. Sin embargo, su fiabilidad en realizar tales tareas necesita ser examinada con cuidado. Un gran problema con los MLGs es que a veces pueden generar información creíble pero incorrecta. Por esta razón, es esencial evaluar su precisión antes de confiar en ellos para tareas importantes como la codificación en salud.
Importancia de la Generación de Códigos CIE
Este estudio se centra en qué tan bien generan GPT-3.5 y GPT-4 códigos de facturación CIE basándose en un conjunto de descripciones. El objetivo es ver cuán precisamente estos modelos pueden emparejar los códigos CIE correctos de diferentes versiones del sistema de clasificación.
Para llevar a cabo este estudio, los investigadores reunieron las listas más recientes de códigos CIE de los Centros de Servicios de Medicare y Medicaid, incluyendo CIE-9-CM, CIE-10-CM y CIE-10-PCS. Seleccionaron aleatoriamente 100 códigos únicos de cada lista, resultando en un total de 300 códigos para su análisis.
Métodos Usados en el Estudio
Los investigadores usaron la interfaz pública de ChatGPT para generar los códigos CIE para cada una de las 300 descripciones. Crearon indicaciones específicas para instruir al modelo a producir los códigos correspondientes. Las descripciones se dieron en grupos para mayor eficiencia.
Para evaluar el desempeño de los MLGs, los investigadores observaron cuántos códigos exactos se emparejaron, cuántos eran facturables, cuántos no lo eran y cuántos no existían. Los códigos no facturables suelen ser menos específicos que los facturables. Usaron un método de comparación para determinar los emparejamientos exactos y también revisaron la similitud semántica y sintáctica.
Dos médicos juzgaron los códigos generados en cuanto a similitudes significativas con las descripciones originales. Este proceso tenía como objetivo evaluar qué tan bien los modelos comprendían los sistemas de codificación. Los investigadores también analizaron los errores cometidos por los modelos para entender dónde tuvieron dificultades y dónde tuvieron éxito.
Resultados del Estudio
Los investigadores encontraron diferentes niveles de éxito a través de los sistemas CIE. Para CIE-9-CM, GPT-4 coincidió códigos exactos el 22% del tiempo, mientras que GPT-3.5 tuvo un desempeño peor con un 10%. Para códigos facturables, GPT-4 obtuvo un 72%, y GPT-3.5 un 76%. Los códigos no facturables fueron evaluados de manera similar, con GPT-4 en un 26% y GPT-3.5 en un 20%. Ambos modelos encontraron menos coincidencias exactas en el sistema CIE-10-CM, con GPT-4 en un 13% y GPT-3.5 en solo un 5%.
Los modelos tuvieron problemas especialmente con el sistema CIE-10-PCS, donde ambos no lograron generar códigos exactos. Sin embargo, GPT-4 produjo códigos facturables en un 39% de los casos, mientras que GPT-3.5 pudo hacerlo en solo un 30%.
Al analizar la similitud semántica, GPT-4 generalmente superó a GPT-3.5 en todos los sistemas. Por ejemplo, en CIE-9-CM, la similitud semántica para GPT-4 fue del 60%, en comparación con el 43% para GPT-3.5. Para CIE-10-CM, GPT-4 obtuvo un 74%, mientras que GPT-3.5 un 63%.
La similitud sintáctica, que se refiere a cuán estrechamente los códigos generados coincidían con los códigos originales basándose en diferencias de carácter, mostró resultados variados. GPT-4 logró un 60% de similitud sintáctica para CIE-9-CM, pero esto cayó a un 36% para CIE-10-CM y solo un 3% para CIE-10-PCS.
Hallazgos del Análisis de Errores
El análisis de errores destacó varios problemas. Ambos modelos tendieron a producir códigos no facturables cuando se enfrentaron a descripciones complejas y largas. Por ejemplo, a menudo generaban códigos generales para condiciones intrincadas, llevando a inexactitudes.
El análisis también mostró que los códigos y descripciones más largos estaban asociados con menores coincidencias exactas. Categorías específicas de condiciones produjeron peores resultados, con modelos que frecuentemente usaban códigos no facturables para situaciones complejas.
Los investigadores observaron que para CIE-10-CM, GPT-4 tenía una baja tasa de coincidencias exactas, lo que indica dificultades con el nivel de detalle requerido. A pesar de esto, el modelo mostró una mayor especificidad general en comparación con CIE-9-CM.
Para el sistema CIE-10-PCS, GPT-4 no coincidió correctamente ningún código pero logró cierta similitud semántica con alrededor del 30% de los códigos generados.
Limitaciones del Estudio
El estudio enfrentó algunas limitaciones. La muestra de condiciones probadas puede no representar aquellas que se encuentran típicamente en situaciones del mundo real. Además, los investigadores no probaron estrategias avanzadas para mejorar el rendimiento del modelo, como el ajuste fino o la conexión a bases de datos. También no evaluaron los modelos basándose en narrativas clínicas reales, que a menudo implican un lenguaje complejo y poco claro.
Conclusión
La evaluación de la capacidad de GPT-3.5 y GPT-4 para generar códigos de facturación CIE reveló un nivel de rendimiento mixto. Estos modelos demostraron cierto entendimiento de las condiciones, pero la precisión general fue insuficiente para aplicaciones prácticas en salud. Producían códigos que a menudo estaban semánticamente relacionados con los correctos pero frecuentemente mostraban inexactitudes.
Hay una necesidad clara de mejoras en los MLGs antes de que puedan integrarse en tareas de salud que requieran un alto nivel de precisión, como la codificación de facturación CIE. Los esfuerzos futuros pueden incluir estrategias para mejorar el rendimiento de los MLG, como refinar las indicaciones o conectar los modelos con herramientas externas para mejorar su precisión.
A medida que la tecnología de MLG se integra más en la atención médica, reconocer sus limitaciones será clave. Mejorar su precisión en el manejo de las terminologías CIE es esencial para realizar su pleno potencial en la simplificación de tareas administrativas y, en última instancia, mejorar la atención al paciente.
Título: Assessing GPT-3.5 and GPT-4 in Generating International Classification of Diseases Billing Codes
Resumen: BackgroundLarge Language Models (LLMs) like GPT-3.5 and GPT-4 are increasingly entering the healthcare domain as a proposed means to assist with administrative tasks. To ensure safe and effective use with billing coding tasks, it is crucial to assess these models ability to generate the correct International Classification of Diseases (ICD) codes from text descriptions. ObjectivesWe aimed to evaluate GPT-3.5 and GPT-4s capability to generate correct ICD billing codes, using the ICD-9-CM (2014) and ICD-10-CM and PCS (2023) systems. MethodsWe randomly selected 100 unique codes from each of the most recent versions of the ICD-9-CM, ICD-10-CM, and ICD-10-PCS billing code sets published by the Centers for Medicare and Medicaid Services. Using the ChatGPT interface (GPT-3.5 and GPT-4), we prompted for the ICD codes that corresponding to each provided code description. Outputs were compared with the actual billing codes across several performance measures. Errors were qualitatively and quantitatively assessed for any underlying patterns. ResultsGPT-4 and GPT-3.5 demonstrated varied performance across each ICD system. In ICD-9-CM, GPT-4 and GPT-3.5 achieved an exact match rate of 22% and 10%, respectively. 13% (GPT-4) and 10% (GPT-3.5) of generated ICD-10-CM codes were exact matches. Notably, both models struggled considerably with the procedurally focused ICD-10-PCS, with neither GPT-4 or GPT-3.5 producing any exactly matched codes. A substantial number of incorrect codes had semantic similarity with the actual codes for ICD-9-CM (GPT-4: 60.3%, GPT-3.5: 51.1%) and ICD-10-CM (GPT-4: 70.1%, GPT-3.5: 61.1%), in contrast to ICD-10-PCS (GPT-4: 30.0%, GPT-3.5: 16.0%). ConclusionOur evaluation of GPT-3.5 and GPT-4s proficiency in generating ICD billing codes from ICD-9-CM, ICD-10-CM and ICD-10-PCS code descriptions reveals an inadequate level of performance. While the models appear to exhibit a general conceptual understanding of the codes and their descriptions, they have a propensity for hallucinating key details, suggesting underlying technological limitations of the base LLMs. This suggests a need for more rigorous LLM augmentation strategies and validation prior to their implementation in healthcare contexts, particularly in tasks such as ICD coding which require significant digit-level precision.
Autores: Ali Soroush, B. S. Glicksberg, E. Zimlichman, Y. Barash, R. M. Freeman, A. Charney, G. Nadkarni, E. Klang
Última actualización: 2023-07-11 00:00:00
Idioma: English
Fuente URL: https://www.medrxiv.org/content/10.1101/2023.07.07.23292391
Fuente PDF: https://www.medrxiv.org/content/10.1101/2023.07.07.23292391.full.pdf
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a medrxiv por el uso de su interoperabilidad de acceso abierto.