Nuevas Perspectivas en la Detección Temprana del Cáncer de Pulmón
Investigaciones destacan métodos mejorados para el diagnóstico temprano del cáncer de pulmón usando datos de pacientes.
― 8 minilectura
Tabla de contenidos
- Importancia del Diagnóstico Temprano
- Rol de los Registros Electrónicos de Salud
- Entendiendo el Procesamiento de Lenguaje Natural
- Extracción de Conceptos Ontológicos
- Recolección de datos y Metodología
- Extracción de Características y Uso de Aprendizaje Automático
- Rendimiento del modelo
- Comparación con Herramientas Existentes
- Hallazgos Clave
- Limitaciones
- Direcciones Futuras
- Conclusión
- Fuente original
El cáncer de pulmón es un gran problema de salud en todo el mundo. Es el segundo tipo de cáncer más común y la principal causa de muertes relacionadas con el cáncer. En Inglaterra, solo alrededor del 29.4% de los casos de cáncer de pulmón se detectan en etapas tempranas, lo que hace más difícil tratarlos exitosamente. Por eso, hay una necesidad urgente de mejores formas para detectar el cáncer de pulmón más pronto, lo que puede mejorar los resultados para los pacientes y reducir la carga en los servicios de salud. El NHS tiene como objetivo diagnosticar el 75% de los casos de cáncer de pulmón en etapas tempranas para 2028.
Importancia del Diagnóstico Temprano
Detectar el cáncer de pulmón en una etapa temprana es muy importante. Si se detecta temprano, los pacientes tienen una mejor oportunidad de sobrevivir. Por ejemplo, la tasa de supervivencia a cinco años para quienes son diagnosticados con cáncer de pulmón en etapa 1 es alrededor del 56.6%, mientras que baja a solo 2.9% para quienes son diagnosticados en etapa 4. La detección temprana es clave, ya que muchas veces los pacientes son diagnosticados en etapas más avanzadas debido a retrasos en la identificación de la enfermedad. Tener criterios de diagnóstico claros puede ayudar a diferenciar el cáncer de pulmón de otros problemas de salud con síntomas similares, lo cual es esencial para un tratamiento efectivo.
Registros Electrónicos de Salud
Rol de losLos Registros Electrónicos de Salud (EHR) han cambiado la forma en que se realiza la investigación en salud. Tienen un montón de datos de pacientes, como demografía, historial médico, resultados de laboratorio y medicamentos. Esta información permite a los investigadores analizar grupos grandes de pacientes e identificar tendencias y factores de riesgo importantes. Sin embargo, hay desafíos, especialmente en torno a la precisión de los datos de síntomas y diagnósticos. Mucha de esta información se registra en texto no estructurado, lo que hace difícil de analizar. Para solucionar esto, técnicas como el Procesamiento de Lenguaje Natural (NLP) pueden ayudar a extraer información útil de estas notas.
Entendiendo el Procesamiento de Lenguaje Natural
El NLP es una tecnología que ayuda a analizar y extraer información de texto escrito. En salud, ha sido especialmente útil para extraer información de los datos no estructurados que se encuentran en los EHR. Estudios han demostrado que el NLP se puede aplicar en varias áreas, como la auditoría de informes de alta, la predicción de readmisiones y la asistencia con diagnósticos. Sin embargo, todavía hay una brecha en el uso de estas técnicas específicamente para síntomas oncológicos. Esto presenta una oportunidad para futuras investigaciones.
Extracción de Conceptos Ontológicos
Hay un creciente interés en usar conceptos ontológicos en lugar de específicos al analizar datos de pacientes. Este enfoque permite un marco más general que puede ayudar a conectar datos de diferentes sistemas. También facilita relacionar esta información con datos clínicos ya organizados en el EHR. Al usar una jerarquía estructurada, los sistemas de aprendizaje automático pueden retener información valiosa, incluso cuando los pacientes reportan síntomas poco comunes. Esto ayuda a mantener el contexto de los síntomas, asegurando que no se pierdan detalles importantes.
Recolección de datos y Metodología
Este estudio involucró la recolección de datos del Data Warehouse del Barts Health NHS Trust. Solo se incluyeron pacientes de 40 años o más que fueron referidos para una radiografía de tórax entre 2016 y 2022. Se excluyeron ciertos pacientes, como aquellos que no quisieron participar en la investigación, los que no tenían notas médicas suficientes y los que tenían un diagnóstico previo de cáncer. Los datos extraídos incluían notas de texto libre, información demográfica y códigos de diagnóstico.
Para determinar si un paciente tenía cáncer de pulmón, los investigadores utilizaron un registro de cáncer y códigos de diagnóstico específicos. Debido a posibles retrasos en el diagnóstico, los datos se volvieron a etiquetar con el tiempo para incluir más pacientes diagnosticados dentro de un año después de su radiografía de tórax.
Extracción de Características y Uso de Aprendizaje Automático
Para convertir notas no estructuradas en datos estructurados, se aplicó el reconocimiento de entidades nombradas (NER) usando software de NLP. Este proceso ayudó a identificar síntomas clínicos y diagnósticos. Las características extraídas incluían datos demográficos, que eran importantes para analizar los resultados. Para manejar datos faltantes, se utilizaron categorías comunes para sexo y etnicidad.
La alta dimensionalidad en las características de los síntomas dificultó el análisis estadístico de los datos. En cambio, se adoptó un enfoque genético para seleccionar características significativas mientras se reducía la redundancia. Las características que mejor funcionaron se utilizaron para entrenar diferentes modelos de clasificación. Luego, se evaluaron estos modelos para ver qué tan bien podían predecir el cáncer de pulmón.
Rendimiento del modelo
De los modelos probados, la regresión logística fue la que mejor funcionó, mostrando alta precisión y estabilidad. Se calcularon métricas de rendimiento, como sensibilidad y especificidad, usando datos de prueba. La inclusión de datos demográficos también mejoró el rendimiento de los modelos. Por ejemplo, incluir edad y etnicidad ayudó a aumentar la precisión de las predicciones de cáncer de pulmón.
Comparación con Herramientas Existentes
El estudio también comparó el nuevo enfoque con herramientas de evaluación de riesgos existentes para el diagnóstico de cáncer de pulmón. El método propuesto superó a estas herramientas, lo que indica que la investigación presenta una forma más efectiva de evaluar el riesgo de cáncer de pulmón.
Hallazgos Clave
La investigación destacó la efectividad de combinar técnicas de NLP con aprendizaje automático para mejorar el diagnóstico de cáncer de pulmón. La capacidad de identificar características relacionadas con el cáncer de pulmón usando datos no estructurados fue exitosa, con un modelo alcanzando una puntuación AUROC de 0.72. Esto mostró que el nuevo método tiene potencial para mejorar la atención y los resultados para los pacientes.
Limitaciones
A pesar de estos avances, hubo limitaciones. El estudio se basó principalmente en datos de atención secundaria, que no dieron suficiente información para analizar qué tan bien el modelo podría detectar el cáncer de pulmón temprano. La mayoría de las interacciones con los pacientes sobre síntomas ocurren en entornos de atención primaria, así que la ausencia de estos datos limita la aplicabilidad del modelo en la vida real.
Además, hubo preocupación por el sesgo de documentación, ya que los pacientes a menudo solo tenían un documento antes de su radiografía de tórax. Esto podría significar que síntomas importantes no se registraron, afectando las predicciones. Más notas clínicas proporcionarían un panorama más claro y reducirían el impacto de dicho sesgo.
Direcciones Futuras
Los estudios futuros deberían enfocarse en recolectar datos más completos, incluyendo información de atención primaria, datos genéticos y detalles de estadificación. Esto ayudaría a mejorar la precisión y aplicabilidad del modelo predictivo para el diagnóstico de cáncer de pulmón. Al cerrar la brecha entre la investigación y la práctica clínica real, podría ser posible mejorar la detección y tratamiento temprano, llevando a mejores resultados para los pacientes.
Conclusión
Esta investigación enfatiza el potencial de usar técnicas de NLP y aprendizaje automático para mejorar el diagnóstico de cáncer de pulmón. Al extraer características relevantes de datos no estructurados, el estudio pudo desarrollar un modelo predictivo que superó a las herramientas de evaluación de riesgos existentes. Aunque hay limitaciones, los hallazgos sugieren un camino a seguir para mejorar la detección temprana del cáncer de pulmón y la atención al paciente mediante un mejor uso de los datos de salud disponibles.
Título: Automated Derivation of Diagnostic Criteria for Lung Cancer using Natural Language Processing on Electronic Health Records: A pilot study.
Resumen: BackgroundThe digitisation of healthcare records has generated vast amounts of unstructured data, presenting opportunities for improvements in disease diagnosis when clinical coding falls short, such as in the recording of patient symptoms. This study presents an approach using natural language processing to extract clinical concepts from free-text which are used to automatically form diagnostic criteria for lung cancer from unstructured secondary-care data. MethodsPatients aged 40 and above who underwent a chest x-ray (CXR) between 2016-2022 were included. ICD-10 and unstructured data were pulled from their electronic health records (EHRs) over the preceding 12 months to the CXR. The unstructured data were processed using named entity recognition to extract symptoms, which were mapped to SNOMED-CT codes. Subsumption of features up the SNOMED-CT hierarchy was used to mitigate against sparse features and a frequency-based criteria, combined with univariate logarithmic probabilities, was applied to select candidate features to take forward to the model development phase. A genetic algorithm was employed to identify the most discriminating features to form the diagnostic criteria. Results75002 patients were included, with 1012 lung cancer diagnoses made within 12 months of the CXR. The best-performing model achieved an AUROC of 0.72. Results showed that an existing disorder of the lung, such as pneumonia, and a cough increased the probability of a lung cancer diagnosis. Anomalies of great vessel, disorder of the retroperitoneal compartment and context-dependent findings, such as pain, statistically reduced the risk of lung cancer, making other diagnoses more likely. The performance of the developed model was compared to the existing cancer risk scores, demonstrating superior performance. ConclusionsThe proposed methods demonstrated success in leveraging unstructured secondary-care data to derive diagnostic criteria for lung cancer, outperforming existing risk tools. These advancements show potential for enhancing patient care and results. However, it is essential to tackle specific limitations by integrating primary care data to ensure a more thorough and unbiased development of diagnostic criteria. Moreover, the study highlights the importance of contextualising SNOMED-CT concepts into meaningful terminology that resonates with clinicians, facilitating a clearer and more tangible understanding of the criteria applied.
Autores: Andrew Houston, S. Williams, W. Ricketts, C. Gutteridge, C. Tackaberry, J. Conibear
Última actualización: 2024-02-21 00:00:00
Idioma: English
Fuente URL: https://www.medrxiv.org/content/10.1101/2024.02.20.24303084
Fuente PDF: https://www.medrxiv.org/content/10.1101/2024.02.20.24303084.full.pdf
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a medrxiv por el uso de su interoperabilidad de acceso abierto.