Simple Science

La science de pointe expliquée simplement

# Sciences de la santé# Radiologie et imagerie

Évaluation de la qualité des IRM cérébrales : un nouveau cadre

Cette étude évalue des outils de qualité automatisés pour les IRM cérébrales dans des ensembles de données cliniques.

― 9 min lire


Nouveau classificateurNouveau classificateurpour l’évaluation de laqualité des IRMde la qualité des IRM cérébrales.Un outil innovant améliore l'évaluation
Table des matières

Les grands ensembles de données d'IRM cérébrale sont super importants pour étudier le cerveau et comprendre différentes conditions. Avec de plus en plus de chercheurs qui partagent leurs données, c'est devenu plus simple de combiner les infos de diverses études. Ça permet aux scientifiques d'analyser des groupes plus grands, ce qui peut mener à des résultats plus fiables.

Dans le domaine du vieillissement et de la démence, il existe plusieurs ensembles de données cliniques, comme ceux des initiatives ciblées sur la maladie d'Alzheimer. En regroupant des données de Neuroimagerie issues de populations cliniques, les chercheurs peuvent augmenter la taille de leurs échantillons et développer de meilleures méthodes pour identifier les marqueurs cérébraux liés aux maladies. Par contre, travailler avec de grands ensembles de données peut être compliqué à cause de trucs comme les artefacts de mouvement et d'autres problèmes de santé.

La première étape dans l'analyse des images cérébrales consiste à vérifier la qualité des IRM T1 pondérées. Ce type d'imagerie aide les chercheurs à examiner les structures cérébrales et à détecter des anomalies. Traditionnellement, les contrôles de qualité étaient faits en inspectant visuellement chaque scan, ce qui n'est pas pratique pour de grands ensembles de données. Des scans de mauvaise qualité peuvent fausser les résultats, tandis qu'enlever trop de scans peut réduire la taille de l'échantillon.

Pour régler ces problèmes, plusieurs approches automatisées ont été développées pour évaluer la qualité des IRM cérébrales T1 pondérées. Certaines méthodes analysent l'arrière-plan des images pour déceler des distorsions et d'autres problèmes, tandis que d'autres se concentrent sur l'avant-plan ou les zones d'intérêt principales. Des techniques d'apprentissage machine ont aussi été utilisées pour entraîner des modèles capables de classifier les scans en bons ou mauvais selon des métriques de qualité.

Malgré les progrès, beaucoup d'outils automatisés ont été conçus sur des données de personnes en bonne santé ou dans des scénarios spécifiques, ce qui limite leur applicabilité à des ensembles de données cliniques divers. Établir un cadre qui fonctionne bien à travers diverses populations et équipements d'imagerie est crucial pour les vérifications de qualité dans les études cliniques.

Objectifs de l'étude

Dans cette étude, on visait à évaluer deux outils automatisés de contrôle qualité largement utilisés : MRIQC et CAT12. L'objectif était d'évaluer leur efficacité dans l'analyse des IRM cérébrales provenant d'ensembles de données cliniques. MRIQC est un outil open-source qui fournit diverses métriques pour évaluer la qualité des images, tandis que CAT12 offre des notations de qualité basées sur des mesures spécifiques liées à la segmentation des tissus. On a comparé les résultats de ces outils avec des contrôles visuels effectués sur un grand ensemble de données cliniques.

En plus de comparer les outils, on a développé un nouveau cadre de classification qui combine les mesures de qualité de MRIQC et CAT12. En testant ce cadre sur différents ensembles de données, on voulait voir dans quelle mesure il pouvait se généraliser à diverses populations et types de scanners.

Ensembles de données utilisés

On a analysé des images cérébrales T1 pondérées issues de quatre ensembles de recherche clinique différents, totalisant 2 438 scans acquis sur 39 scanners de trois fabricants : Siemens, Philips et GE. Chaque ensemble de données variait en termes de tranche d'âge et de but :

  1. Oxford Brain Health Clinic (BHC) : Comprenait 160 scans de patients âgés de 65 à 101 ans.
  2. Oxford Parkinson’s Disease Centre (OPDC) : Comprenait 383 scans d'individus âgés de 39 à 116 ans.
  3. Whitehall II Imaging Study : Comportait 775 scans de participants âgés de 60 à 85 ans.
  4. Alzheimer’s Disease Neuroimaging Initiative (ADNI) : Comprenait 1 120 scans d'individus âgés de 55 à 92 ans.

Toutes les images ont été organisées et préparées pour l'analyse, garantissant la confidentialité en anonymisant les détails personnels.

Pipeline MRIQC

Le pipeline MRIQC extrait des métriques de qualité d'images des données d'IRM structurelles et fonctionnelles. Il utilise divers outils logiciels de neuroimagerie et fournit un classificateur pré-entraîné pour évaluer la qualité des scans. Chaque image T1 pondérée a été évaluée grâce à ce pipeline, générant de nombreuses métriques qui décrivent des aspects comme le bruit et la résolution de l'image.

Pipeline CAT12

Le pipeline CAT12 est une extension d'un autre outil logiciel. Il offre un cadre pour évaluer la qualité des images en quantifiant des paramètres liés au bruit et à la résolution. Chaque image T1 pondérée a été traitée via ce pipeline, générant des notations de qualité basées sur les caractéristiques visuelles des images.

Comparaison des mesures de qualité

Pour évaluer les mesures de qualité des deux outils, on a analysé les corrélations entre les métriques générées. Cette comparaison nous a permis de déterminer dans quelle mesure elles fournissent des informations qui se chevauchent ou sont uniques.

On a aussi calculé le pourcentage de scans qui ont passé le contrôle qualité en comparant les résultats des inspections visuelles à ceux de MRIQC et CAT12. On a exploré l'accord entre ces notations en utilisant une méthode statistique.

Ajustement des seuils d'acceptation

Pour affiner notre analyse, on a exploré comment le changement des seuils d'acceptation pour chaque outil affectait les résultats. En appliquant des seuils plus stricts ou plus souples, on a réévalué les notations de contrôle qualité et les avons comparées aux évaluations visuelles.

Classificateur QC proposé

On a développé un nouveau classificateur qui combine les mesures de qualité de MRIQC et CAT12. Le classificateur a été entraîné sur un ensemble de données divers, et sa performance a été testée sur différents ensembles de test. Cette approche visait à voir à quel point le classificateur pouvait se généraliser à diverses populations et protocoles d'imagerie.

Développement du modèle

Le modèle de données combinées a été conçu pour classer les scans comme acceptables ou rejetables selon des mesures de qualité des deux outils automatisés. On a utilisé des algorithmes d'apprentissage machine pour optimiser la classification et améliorer la performance globale du modèle.

Pour l'entraînement, on a utilisé une répartition de 80 % des données, garantissant une représentation des différents sites et groupes de participants. On a testé trois algorithmes d'apprentissage machine et évalué leurs résultats.

Évaluation du modèle

Le modèle final a été évalué en fonction de son exactitude équilibrée, prenant en compte différents facteurs tels que les groupes diagnostiques, les types de scanners et d'autres variables. En évaluant la performance du classificateur, on a pu tirer des conclusions sur son applicabilité pour les ensembles de données cliniques.

Résultats

Le classificateur proposé a montré de bonnes performances sur divers ensembles de test. Il a surpassé à plusieurs reprises les résultats de MRIQC et CAT12, montrant son potentiel pour l'évaluation de qualité.

Corrélations des mesures de qualité

En analysant les corrélations entre les mesures de qualité des deux outils, on a trouvé que certaines mesures étaient significativement liées, tandis que d'autres fournissaient des informations uniques sur la qualité des scans. Cela indiquait que les deux outils pouvaient se compléter lorsqu'ils sont utilisés ensemble.

Accord avec QC visuel

L'accord entre les notations des outils automatisés et les inspections visuelles variait selon les ensembles de données. Alors que MRIQC montrait un meilleur accord global avec le QC visuel, CAT12 performait bien dans certains cas. L'ajustement des seuils a amélioré l'accord mais a révélé une variabilité selon les scénarios différents.

Discussion

Cette étude souligne l'importance d'un contrôle qualité robuste dans l'analyse des scans cérébraux T1 pondérés provenant d'ensembles de données cliniques divers. La combinaison d'outils automatisés pourrait renforcer la fiabilité des résultats dans les études liées au vieillissement et aux maladies neurodégénératives. En partageant le classificateur développé et les métriques de qualité à travers des portails publics, on espère contribuer à des efforts de recherche futurs visant à améliorer l'évaluation de la qualité des images.

Limitations et futures directions

Certaines limites ont été identifiées durant l'étude. Les ensembles de données utilisés étaient très organisés, ce qui a pu mener à un déséquilibre dans le nombre de scans acceptables et rejetables. Les recherches futures peuvent se concentrer sur la collecte d'échantillons plus divers à travers différents niveaux de qualité pour améliorer la performance du classificateur.

De plus, l'utilisation d'images anonymisées peut influencer les évaluations de qualité, donc une exploration plus approfondie de méthodes alternatives pour la protection de la vie privée est justifiée. De nouvelles approches pour inclure des fonctionnalités de contrôle qualité supplémentaires provenant d'une gamme plus large d'outils pourraient également renforcer le cadre de classification.

Conclusion

On a développé un classificateur robuste pour l'évaluation de la qualité des IRM cérébrales T1 pondérées, en s'appuyant sur des données d'ensembles cliniques variés. En intégrant des mesures de qualité d'outils automatisés établis comme MRIQC et CAT12, on a démontré le potentiel d'améliorer la performance dans l'identification des scans utilisables. Les efforts continus pour partager les résultats et les ressources soutiendront l'avancement des processus de contrôle qualité dans les études de neuroimagerie.

Source originale

Titre: Automated quality control of T1-weighted brain MRI scans for clinical research: methods comparison and design of a quality prediction classifier

Résumé: IntroductionT1-weighted MRI is widely used in clinical neuroimaging for studying brain structure and its changes, including those related to neurodegenerative diseases, and as anatomical reference for analysing other modalities. Ensuring high-quality T1-weighted scans is vital as image quality affects reliability of outcome measures. However, visual inspection can be subjective and time-consuming, especially with large datasets. The effectiveness of automated quality control (QC) tools for clinical cohorts remains uncertain. In this study, we used T1w scans from elderly participants within ageing and clinical populations to test the accuracy of existing QC tools with respect to visual QC and to establish a new quality prediction framework for clinical research use. MethodsFour datasets acquired from multiple scanners and sites were used (N = 2438, 11 sites, 39 scanner manufacturer models, 3 field strengths - 1.5T, 3T, 2.9T, patients and controls, average age 71 {+/-} 8 years). All structural T1w scans were processed with two standard automated QC pipelines (MRIQC and CAT12). The agreement of the accept-reject ratings was compared between the automated pipelines and with visual QC. We then designed a quality prediction framework that combines the QC measures from the existing automated tools and is trained on clinical datasets. We tested the classifier performance using cross-validation on data from all sites together, also examining the performance across diagnostic groups. We then tested the generalisability of our approach when leaving one site out and explored how well our approach generalises to data from a different scanner manufacturer and/or field strength from those used for training. ResultsOur results show significant agreement between automated QC tools and visual QC (Kappa=0.30 with MRIQC predictions; Kappa=0.28 with CAT12s rating) when considering the entire dataset, but the agreement was highly variable across datasets. Our proposed robust undersampling boost (RUS) classifier achieved 87.7% balanced accuracy on the test data combined from different sites (with 86.6% and 88.3% balanced accuracy on scans from patients and controls respectively). This classifier was also found to be generalisable on different combinations of training and test datasets (leave-one-site-out = 78.2% average balanced accuracy; exploratory models = 77.7% average balanced accuracy). ConclusionWhile existing QC tools may not be robustly applicable to datasets comprised of older adults who have a higher rate of atrophy, they produce quality metrics that can be leveraged to train a more robust quality control classifiers for ageing and clinical cohorts.

Auteurs: Ludovica Griffanti, G. V. Bhalerao, G. Gillis, M. Dembele, S. Suri, K. Ebmeier, J. Klein, M. Hu, C. Mackay

Dernière mise à jour: 2024-04-15 00:00:00

Langue: English

Source URL: https://www.medrxiv.org/content/10.1101/2024.04.12.24305603

Source PDF: https://www.medrxiv.org/content/10.1101/2024.04.12.24305603.full.pdf

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires