Avancées dans le traitement du cancer oropharyngé
La recherche met en avant le rôle de l'incertitude dans la segmentation des tumeurs pour de meilleurs résultats en radiothérapie.
― 9 min lire
Table des matières
- Le défi de la segmentation précise
- Automatisation dans la planification du traitement
- Le rôle de l'Incertitude dans les prédictions
- Enquête sur l'incertitude dans les modèles de prédiction
- Modèles d'apprentissage profond utilisés
- Mesure de l'incertitude dans les segmentations
- Évaluation des performances
- L'importance de l'incertitude au niveau du patient
- Processus de référence simulés
- Visualisation des prédictions et de l'incertitude du modèle
- Limites et perspectives d'avenir
- Conclusion
- Source originale
Le Cancer oropharyngé (COP) est un type de cancer courant et sérieux qui affecte la zone de la gorge, surtout l'arrière de la bouche et de la gorge. Un des traitements principaux pour ce cancer, c'est la radiothérapie, qui utilise des rayons à haute énergie pour tuer les cellules cancéreuses. Pour que la radiothérapie fonctionne bien, les médecins doivent identifier précisément la zone du cancer, appelée volume de tumeur grossier (GTVp). C'est pas évident parce que différents médecins peuvent voir la tumeur de manière différente, ce qui peut entraîner des incohérences dans la planification du traitement.
Le défi de la segmentation précise
Identifier avec précision le GTVp est essentiel pour un traitement réussi. Cependant, les tumeurs COP sont particulièrement difficiles à définir. Différents experts peuvent avoir des opinions variées sur où la tumeur commence et se termine, ce qui peut avoir un impact significatif sur les résultats du traitement. Cette variation entre experts, appelée variabilité interobservateur, est l'un des plus grands défis dans le traitement du COP. Du coup, améliorer la façon dont on identifie et segmente ces tumeurs est crucial pour renforcer l'efficacité de la radiothérapie.
Automatisation dans la planification du traitement
Pour résoudre les problèmes de segmentation manuelle, les chercheurs se tournent vers la technologie, en particulier l'Apprentissage profond (DL). C'est un type d'intelligence artificielle qui utilise des algorithmes complexes pour identifier et traiter des motifs dans les données. Dans le contexte du COP, les modèles d'apprentissage profond peuvent aider à segmenter les organes et la tumeur elle-même de manière plus fiable que des annotateurs humains. Des études montrent que ces méthodes automatisées peuvent égaler ou même dépasser la précision des experts humains pour identifier le GTVp.
Le rôle de l'Incertitude dans les prédictions
Bien que beaucoup de modèles d'apprentissage profond puissent offrir de bonnes performances dans la segmentation des tumeurs COP, un aspect important reste sous-exploré : l'incertitude de leurs prédictions. Comprendre à quel point ces modèles sont sûrs de leurs prédictions peut aider les médecins à faire davantage confiance à leurs résultats. Les modèles peuvent donner des scores de performance élevés mais avoir des résultats incertains, ce qui peut entraîner des complications potentielles dans le traitement.
Quantifier l'incertitude est important. Ça permet aux médecins de savoir quand ils peuvent se fier aux prédictions d'un modèle et quand ils doivent être prudents. En radiothérapie, connaître le niveau de confiance dans la segmentation est particulièrement pertinent, étant donné la grande variabilité dans les évaluations des experts humains.
Enquête sur l'incertitude dans les modèles de prédiction
Dans cette étude, les chercheurs se sont concentrés sur le développement de modèles d'apprentissage profond qui non seulement segmentent efficacement le GTVp, mais fournissent aussi des estimations d'incertitude. Ils ont analysé diverses méthodes pour mesurer l'incertitude à la fois au niveau du patient et au niveau de chaque voxelle (petite unité 3D).
Pour entraîner et évaluer leurs modèles, les chercheurs ont utilisé deux ensembles de données principaux contenant des données d'imagerie de patients atteints de COP. Un ensemble de données était public, tandis que l'autre provenait d'un centre de cancérologie bien connu. Ces données diverses ont aidé à créer des modèles robustes qui pouvaient être testés sur un large éventail de cas de patients.
Modèles d'apprentissage profond utilisés
Deux modèles d'apprentissage profond ont été principalement examinés : le Deep Ensemble et le Monte Carlo Dropout Ensemble. Les deux modèles étaient basés sur une architecture similaire appelée U-Net résiduel 3D. Ce design s'est montré efficace pour segmenter le GTVp dans des études précédentes. Chaque modèle a été entraîné sur des ensembles de données séparés pour s'assurer qu'ils pouvaient bien apprendre et généraliser à de nouvelles données.
La segmentation automatique a été réalisée en alimentant les modèles avec des données de scans CT et PET. Pendant l'entraînement, les modèles ont appris à identifier les caractéristiques qui représentent le mieux les régions de tumeur.
Mesure de l'incertitude dans les segmentations
Pour évaluer l'incertitude, plusieurs méthodes ont été employées. Les chercheurs ont regardé à quel point les prédictions du modèle étaient dispersées. Une méthode courante impliquait de calculer l'entropie des prédictions, qui est essentiellement une mesure de l'incertitude. Si un modèle était très sûr de sa prédiction, l'entropie serait basse, tandis qu'une entropie élevée indiquerait de l'incertitude.
D'autres mesures d'incertitude ont également été explorées, comme le coefficient de variation et l'entropie prédictive. L'objectif était de trouver la méthode la plus efficace pour évaluer et communiquer l'incertitude aux cliniciens travaillant avec les modèles.
Évaluation des performances
Une fois les modèles entraînés, leurs performances ont été évaluées à l'aide de métriques qui quantifient à quel point ils ont bien fonctionné pour segmenter les tumeurs. Les métriques clés comprenaient le coefficient de similarité de Dice (DSC), qui mesure le chevauchement entre les régions tumorales prédites et réelles, la distance moyenne de surface (MSD), et la distance de Hausdorff (95HD), qui évalue à quel point les frontières prédites sont éloignées des véritables frontières tumorales.
Les résultats ont montré que les deux modèles fonctionnaient bien, le Monte Carlo Dropout Ensemble surpassant légèrement le Deep Ensemble lorsqu'il était testé contre des données de patients externes. Bien qu'il y ait eu quelques différences, elles n'étaient pas assez significatives pour suggérer qu'un modèle était clairement supérieur.
L'importance de l'incertitude au niveau du patient
Une des découvertes cruciales était l'utilité des mesures d'incertitude au niveau du patient. Les chercheurs ont découvert qu'en examinant à quel point les modèles étaient certains ou incertains dans leurs prédictions, ils pouvaient prévoir quelles segmentations étaient susceptibles d'être précises. C'est particulièrement précieux dans la pratique clinique, où les médecins peuvent être plus confiants dans leurs décisions de traitement s'ils comprennent la fiabilité des résultats de segmentation.
Par exemple, si une segmentation de tumeur est marquée comme incertaine, un clinicien pourrait décider de vérifier les résultats ou de réaliser des imageries supplémentaires. Cette approche assure que les patients reçoivent les meilleurs soins possibles basés sur des données fiables.
Processus de référence simulés
En plus d'évaluer les performances, l'étude a également simulé des processus de référence basés sur l'incertitude. Dans ces simulations, les patients étaient classés selon à quel point le modèle était incertain au sujet de leurs segmentations. L'idée était de référer les cas les plus incertains pour un examen par des experts, ce qui pourrait potentiellement améliorer les résultats globaux du traitement.
Les résultats ont indiqué que toutes les mesures d'incertitude amélioraient la performance du modèle lors du processus de référence. Cependant, certaines mesures ont mieux fonctionné que d'autres pour prédire des segmentations précises et devraient être prises en compte lors des décisions de référence.
Visualisation des prédictions et de l'incertitude du modèle
Les chercheurs ont également examiné visuellement l'incertitude autour des prédictions du modèle. Ils ont constaté que l'incertitude était généralement plus élevée autour des bords des régions tumorales prédites. Cela peut être dû à la façon dont les modèles d'apprentissage profond ont interprété les données d'imagerie. Comprendre où un modèle n'est pas sûr est crucial parce que ça peut aider les cliniciens à se concentrer sur ces zones lors de la révision des résultats de segmentation.
Limites et perspectives d'avenir
Bien que cette étude ait fait des progrès significatifs dans la compréhension de l'incertitude dans la segmentation du COP, elle avait aussi des limites. Seulement deux modèles ont été explorés, et les tailles d'échantillon étaient relativement limitées. Les recherches futures devraient viser à inclure plus de modèles, de plus grands ensembles de données, et d'autres techniques d'imagerie pour améliorer la fiabilité et l'applicabilité des estimations d'incertitude dans les flux de travail cliniques.
De plus, le focus était uniquement sur les tumeurs primaires, sans enquête sur les métastases dans les ganglions lymphatiques. À mesure que la recherche dans ce domaine progresse, inclure ces facteurs fournira une compréhension plus complète de la gestion du cancer.
Conclusion
En résumé, l'intégration de l'estimation de l'incertitude dans les modèles d'apprentissage profond pour la segmentation du cancer oropharyngé marque une avancée significative dans la planification de la radiothérapie. En comprenant non seulement à quel point ces modèles fonctionnent bien, mais aussi à quel point ils sont confiants dans leurs prédictions, les professionnels de la santé peuvent prendre des décisions mieux informées concernant les soins des patients. Cette recherche jette les bases pour d'autres développements dans les applications d'intelligence artificielle en oncologie, visant finalement à améliorer les résultats pour les patients atteints de cancer. À mesure que d'autres études sont menées, on espère renforcer l'efficacité des outils de segmentation automatisée et leur rôle dans les contextes cliniques.
Titre: Application of simultaneous uncertainty quantification for image segmentation with probabilistic deep learning: Performance benchmarking of oropharyngeal cancer target delineation as a use-case
Résumé: BackgroundOropharyngeal cancer (OPC) is a widespread disease, with radiotherapy being a core treatment modality. Manual segmentation of the primary gross tumor volume (GTVp) is currently employed for OPC radiotherapy planning, but is subject to significant interobserver variability. Deep learning (DL) approaches have shown promise in automating GTVp segmentation, but comparative (auto)confidence metrics of these models predictions has not been well-explored. Quantifying instance-specific DL model uncertainty is crucial to improving clinician trust and facilitating broad clinical implementation. Therefore, in this study, probabilistic DL models for GTVp auto-segmentation were developed using large-scale PET/CT datasets, and various uncertainty auto-estimation methods were systematically investigated and benchmarked. MethodsWe utilized the publicly available 2021 HECKTOR Challenge training dataset with 224 co-registered PET/CT scans of OPC patients with corresponding GTVp segmentations as a development set. A separate set of 67 co-registered PET/CT scans of OPC patients with corresponding GTVp segmentations was used for external validation. Two approximate Bayesian deep learning methods, the MC Dropout Ensemble and Deep Ensemble, both with five submodels, were evaluated for GTVp segmentation and uncertainty performance. The segmentation performance was evaluated using the volumetric Dice similarity coefficient (DSC), mean surface distance (MSD), and Hausdorff distance at 95% (95HD). The uncertainty was evaluated using four measures from literature: coefficient of variation (CV), structure expected entropy, structure predictive entropy, and structure mutual information, and additionally with our novel Dice-risk measure. The utility of uncertainty information was evaluated with the accuracy of uncertainty-based segmentation performance prediction using the Accuracy vs Uncertainty (AvU) metric, and by examining the linear correlation between uncertainty estimates and DSC. In addition, batch-based and instance-based referral processes were examined, where the patients with high uncertainty were rejected from the set. In the batch referral process, the area under the referral curve with DSC (R-DSC AUC) was used for evaluation, whereas in the instance referral process, the DSC at various uncertainty thresholds were examined. ResultsBoth models behaved similarly in terms of the segmentation performance and uncertainty estimation. Specifically, the MC Dropout Ensemble had 0.776 DSC, 1.703 mm MSD, and 5.385 mm 95HD. The Deep Ensemble had 0.767 DSC, 1.717 mm MSD, and 5.477 mm 95HD. The uncertainty measure with the highest DSC correlation was structure predictive entropy with correlation coefficients of 0.699 and 0.692 for the MC Dropout Ensemble and the Deep Ensemble, respectively. The highest AvU value was 0.866 for both models. The best performing uncertainty measure for both models was the CV which had R-DSC AUC of 0.783 and 0.782 for the MC Dropout Ensemble and Deep Ensemble, respectively. With referring patients based on uncertainty thresholds from 0.85 validation DSC for all uncertainty measures, on average the DSC improved from the full dataset by 4.7% and 5.0% while referring 21.8% and 22% patients for MC Dropout Ensemble and Deep Ensemble, respectively. ConclusionWe found that many of the investigated methods provide overall similar but distinct utility in terms of predicting segmentation quality and referral performance. These findings are a critical first-step towards more widespread implementation of uncertainty quantification in OPC GTVp segmentation.
Auteurs: Kareem A. Wahid, J. Sahlsten, J. Jaskari, S. Ahmed, E. Glerean, R. He, B. Kann, A. A. Makitie, C. D. Fuller, M. A. Naser, K. Kaski
Dernière mise à jour: 2023-02-24 00:00:00
Langue: English
Source URL: https://www.medrxiv.org/content/10.1101/2023.02.20.23286188
Source PDF: https://www.medrxiv.org/content/10.1101/2023.02.20.23286188.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.