Orion : Une nouvelle approche pour détecter le cancer du poumon
Orion améliore la détection précoce du cancer du poumon grâce à une analyse avancée des ARN non codants.
― 9 min lire
Table des matières
Le Cancer du poumon est la principale cause de décès par cancer aux États-Unis. Environ une personne sur cinq qui meurt du cancer le fait à cause du cancer du poumon. Chaque année, plus de gens meurent du cancer du poumon que du cancer du côlon, du sein et de la prostate réunis. Une détection précoce du cancer du poumon peut mener à de meilleurs traitements et à des taux de survie plus élevés. Cependant, beaucoup de gens ne se font pas dépister pour le cancer du poumon, ce qui est préoccupant. Seulement environ 23 % des cas de cancer du poumon sont découverts à un stade précoce, où les chances de vivre cinq ans après le diagnostic sont de 59 %.
Les méthodes actuelles pour repérer le cancer du poumon via des tests qui recherchent l'ADN des tumeurs dans le sang ne sont pas très sensibles pour les maladies à un stade précoce. Elles ne détectent environ que 55 % à 57 % des cas précoces de cancer du poumon, alors que c'est à ce moment que le traitement fonctionne le mieux. Bien que de nouveaux tests aient amélioré la capacité à repérer les mutations dans l'ADN, ils ont encore du mal à détecter les petites tumeurs tôt, car ces tumeurs ne libèrent pas beaucoup d'ADN dans la circulation sanguine.
Dans les cellules cancéreuses, la façon dont l'ADN est emballé peut changer, ce qui permet à la machinerie cellulaire d'accéder à des parties de l'ADN auxquelles elle ne peut normalement pas accéder. Les changements dans le fonctionnement de l'ARN dans le cancer peuvent aussi mener à la création de fragments d'ARN qui ne sont pas typiquement trouvés dans les tissus sains. Une nouvelle classe de petits ARN, appelés ARN non-codants orphelins, a été trouvée dans le cancer. Ces ARN non-codants sont abondants, stables et sont libérés dans le sang par les cellules cancéreuses. Nous avons créé un catalogue de plus de 777 291 de ces ARN non-codants dans divers types de cancer. Certains de ces ARN non-codants aident les tumeurs à se propager, tandis que d'autres résultent de changements dans la façon dont l'ARN est traité dans le cancer.
Contrairement aux tests basés sur l'ADN, les ARN non-codants n'ont pas besoin de la mort cellulaire pour entrer dans la circulation sanguine. Cela signifie qu'ils pourraient aider à détecter le cancer tôt et à classer différents Sous-types de cancer dans les tests sanguins. Cependant, comme une petite quantité de ces ARN non-codants pourrait être présente dans le sang, les modèles que nous voyons peuvent être incohérents. Des problèmes techniques, comme des différences dans la façon dont les Échantillons sont traités ou dans la profondeur à laquelle ils sont séquencés, peuvent ajouter de la confusion, surtout quand on essaie de séparer les cas de cancer des cas non cancéreux.
Pour créer un test qui peut identifier efficacement le cancer, nous avons besoin de meilleures méthodes pour comprendre les propriétés biologiques des ARN non-codants et comment gérer les variations techniques dans les données. Récemment, différents types de réseaux neuronaux ont été développés pour apprendre des motifs à partir de données complexes. Ces modèles d'apprentissage profond peuvent utiliser diverses techniques pour améliorer la précision et la flexibilité. Cependant, ils nécessitent beaucoup d'échantillons pour l'entraînement, et la présence de variations techniques connues peut limiter leur utilité.
Orion : Un Nouveau Modèle
Pour relever ces défis, nous avons développé un nouveau modèle appelé Orion. Ce modèle utilise une approche spécialisée pour analyser les ARN non-codants dans les échantillons sanguins. Orion est conçu pour apprendre des motifs généraux d'ARN non-codants, ce qui pourrait aider à la détection précoce du cancer du poumon et à éliminer les variations techniques qui pourraient confondre les résultats.
L'approche que nous proposons est unique car elle utilise les ARN non-codants libérés par les tumeurs comme signature pour la Détection du cancer à partir du sang. Nous avons d'abord trouvé un ensemble d'ARN non-codants spécifiquement associés au cancer du poumon en analysant des ensembles de données existantes. Cela a impliqué de comparer des échantillons de tissus provenant de tumeurs pulmonaires à ceux de tissus pulmonaires normaux. Nous avons ensuite testé l'expression de ces ARN non-codants dans des échantillons sanguins pour voir s'ils pouvaient aider à identifier le cancer.
Comment Orion Fonctionne
Orion fonctionne en prenant deux ensembles de données : les comptages d'ARN non-codants et des données d'autres ARN hautement exprimés. Chaque ensemble est traité par un modèle d'apprentissage automatique dans le but de trouver une représentation commune parmi les données. Cette représentation conjointe sera ensuite utilisée pour classifier si un échantillon provient d'un patient cancéreux ou d'un individu sain.
Le modèle vise à minimiser l'impact des différences connues dans les échantillons, comme celles provenant de différents lots ou sources. En faisant cela, l'objectif est d'améliorer l'exactitude de la détection du cancer tout en veillant à ce que le modèle puisse appliquer son apprentissage à de nouveaux ensembles de données.
Dans nos tests, Orion a montré des résultats impressionnants. Il a atteint un niveau élevé de précision dans la distinction entre les échantillons cancéreux et non cancéreux. En particulier, pour le cancer du poumon à un stade précoce, Orion a démontré un taux de sensibilité élevé, ce qui signifie qu'il a correctement identifié un grand nombre de véritables cas de cancer.
Évaluation des Performances d'Orion
Pour évaluer l'efficacité d'Orion, nous avons divisé notre ensemble de données d'échantillons sanguins en deux parties : un ensemble d'entraînement et un ensemble de validation. Pour la phase d'entraînement, nous avons mis en œuvre une méthode appelée validation croisée, qui consiste à diviser plusieurs fois les données en différentes sections pour s'assurer que le modèle apprend bien et est robuste.
Lors de nos tests d'Orion sur l'ensemble de validation, nous avons constaté qu'il maintenait un fort niveau de performance. Il a montré une haute sensibilité pour les cas de cancer du poumon de stade I et a eu une meilleure performance par rapport à d'autres méthodes courantes. Pour les stades plus avancés du cancer du poumon, Orion a également très bien performé, indiquant qu'il est un outil fiable pour la détection du cancer.
Trouver des ARN Non-Codants Importants
En plus de détecter le cancer, nous voulions aussi savoir quels ARN non-codants spécifiques étaient les plus importants dans les prédictions du modèle. Pour cela, nous avons utilisé une méthode appelée SHAP, qui aide à comprendre comment différentes caractéristiques contribuent au résultat du modèle.
Nous avons identifié plusieurs ARN non-codants qui sont étroitement liés à des gènes connus pour jouer un rôle dans le cancer du poumon. Ces informations pourraient donner un aperçu de la manière dont le modèle fonctionne et mettre en lumière des cibles potentielles pour de futures recherches.
Composants du Modèle et Leurs Fonctions
Pour mieux comprendre comment Orion atteint ses résultats, nous avons examiné les différents composants du modèle. Nous avons découvert que des caractéristiques spécifiques du modèle, comme l'utilisation d'un type spécial de fonction de perte, ont aidé à améliorer sa capacité à séparer les échantillons cancéreux des échantillons sains. Cela signifie qu'Orion détecte non seulement le cancer efficacement, mais le fait tout en minimisant l'influence des variations non pertinentes dans les données.
En expérimentant différentes configurations du modèle, nous avons confirmé que ces composants, notamment la façon dont nous gérons les distances entre les échantillons, ont contribué de manière significative à la performance globale d'Orion. La flexibilité d'Orion lui permet de rester efficace même face à différents types de caractéristiques de données.
Détection des Sous-types de Tumeurs
Une autre application importante d'Orion est son potentiel à différencier divers sous-types de cancer du poumon. Comprendre le sous-type de cancer du poumon est crucial car cela peut influencer les décisions de traitement et les résultats pour les patients. Par exemple, certains cas d'adénocarcinome pulmonaire peuvent se transformer en carcinome épidermoïde après traitement, ce qui complique la gestion de la maladie.
En utilisant Orion, nous avons cherché à distinguer entre deux sous-types majeurs de cancer du poumon non à petites cellules : l'adénocarcinome et le carcinome épidermoïde. Le modèle a raisonnablement bien performé pour reconnaître ces sous-types en fonction des profils d'ARN non-codants dans le sang. Cette capacité suggère qu'Orion pourrait être utilisé non seulement pour la détection précoce du cancer, mais aussi pour surveiller les changements de type de tumeur au fil du temps.
Conclusion
Notre travail montre qu'Orion représente un pas en avant significatif dans la détection et le suivi du cancer, surtout pour le cancer du poumon. En se concentrant sur les ARN non-codants, qui sont de nouveaux biomarqueurs abondants trouvés dans le sang, Orion offre un outil prometteur pour la détection précoce du cancer.
La capacité de faire la distinction entre les échantillons cancéreux et sains, ainsi que la capacité d'identifier les sous-types de tumeurs, ouvre de nombreuses applications potentielles en milieu clinique. Alors que nous continuons à affiner et tester Orion, nous espérons améliorer encore ses capacités. Cela pourrait mener à de meilleures stratégies pour gérer le cancer du poumon et possiblement d'autres types de cancers à l'avenir.
Avec Orion et son approche innovante, nous sommes optimistes quant au potentiel d'améliorer les méthodes de diagnostic en oncologie, contribuant ainsi à de meilleurs soins et résultats pour les patients.
Titre: Deep generative AI models analyzing circulating orphan non-coding RNAs enable accurate detection of early-stage non-small cell lung cancer
Résumé: Liquid biopsies have the potential to revolutionize cancer care through non-invasive early detection of tumors, when the disease can be more effectively managed and cured. Developing a robust liquid biopsy test requires collecting high-dimensional data from a large number of blood samples across heterogeneous groups of patients. We propose that the generative capability of variational auto-encoders enables learning a robust and generalizable signature of blood-based biomarkers that capture true biological signals while removing spurious confounders (e.g., library size, zero-inflation, and batch effects). In this study, we analyzed orphan non-coding RNAs (oncRNAs) from serum samples of 1,050 individuals diagnosed with non-small cell lung cancer (NSCLC) at various stages, as well as sex-, age-, and BMI-matched controls to evaluate the potential use of deep generative models. We demonstrated that our multi-task generative AI model, Orion, surpassed commonly used methods in both overall performance and generalizability to held-out datasets. Orion achieved an overall sensitivity of 92% (95% CI: 85%-97%) at 90% specificity for cancer detection across all stages, outperforming the sensitivity of other methods such as support vector machine (SVM) classifier, ElasticNet, or XGBoost on held-out validation datasets by more than [~]30%.
Auteurs: Hani Goodarzi, M. Karimzadeh, A. Momen-Roknabadi, T. B. Cavazos, Y. Fang, N.-C. Chen, M. Multhaup, J. Yen, J. Ku, J. Wang, X. Zhao, P. Murzynowski, K. Wang, R. Hanna, A. Huang, D. Corti, D. Nguyen, T. Lam, S. Kilinc, P. Arensdorf, K. H. Chau, A. Hartwig, L. Fish, H. Li, B. Behsaz, O. Elemento, J. Zou, F. Hormozdiari, B. Alipanahi
Dernière mise à jour: 2024-04-12 00:00:00
Langue: English
Source URL: https://www.medrxiv.org/content/10.1101/2024.04.09.24304531
Source PDF: https://www.medrxiv.org/content/10.1101/2024.04.09.24304531.full.pdf
Licence: https://creativecommons.org/licenses/by-nc/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.