Faire avancer la recherche sur la dysmorphie faciale avec des données diversifiées
Une nouvelle base de données améliore les outils d'IA pour reconnaître les traits du visage à travers les ancestries.
Tzung-Chien Hsieh, H. Lesmann, A. Hustinx, S. Moosa, E. Marchi, P. Caro, I. M. Abdelrazek, J. T. Pantel, H. Klinkhammer, M. ten Hagen, T. Kamphans, W. Meiswinkel, J.-M. Li, B. Javanmardi, A. Knaus, A. Uwineza, C. Knopp, T. Tkemaladze, M. Elbracht, L. Mattern, R. A. Jamra, C. Velmans, V. Strehlow, H. Goel, B. C. Nunes, T. Vilella, I. F. Pinheiro, C. A. Kim, M. I. Melaragno, T. S. Barakat, A. Nabil, J. Suh, L. Averdunk, E. Ekure, C. Graziano, P. Phowthongkum, N. Guzel, T. B. Haack, T. Brunet, S. Rudnik-Schoneborn, K. Platzer, A. Borovikov, F. Schnabel, L. Heuft, Herrmann
― 8 min lire
Table des matières
- Le rôle de l'ascendance dans les traits faciaux
- Technologie et ascendance
- Motivation pour une base de données plus diverse
- Structure et fonctionnalité de la GMDB
- Diversité dans la GMDB
- Analyse des performances selon les ascendants
- Impact de la diversité des données sur l'entraînement de l'IA
- Faire avancer la recherche
- Avantages éducatifs
- Conclusion
- Source originale
- Liens de référence
Le dysmorphisme facial fait référence à des traits inhabituels du visage qui peuvent aider à identifier des Troubles génétiques. Ces traits faciaux sont importants pour diagnostiquer des maladies génétiques rares. Cependant, reconnaître ces schémas n’est pas facile. Ça demande un œil entraîné, des connaissances et de l’expérience. Dans certains syndromes rares, même des médecins expérimentés peuvent avoir du mal car les traits faciaux peuvent varier beaucoup d’un individu à l’autre. Des facteurs comme le sexe, l’âge et les origines familiales peuvent aussi influencer l’apparence de ces traits, rendant plus difficile l’identification de schémas dysmorphiques spécifiques.
Le rôle de l'ascendance dans les traits faciaux
Les origines familiales jouent un grand rôle dans notre apparence, surtout au niveau des traits du visage. Différents groupes ancestraux ont leurs traits uniques, ce qui entraîne des différences significatives dans la perception des traits faciaux à travers diverses populations. Par exemple, des fentes palpébrales inclinées peuvent être courantes et normales chez les individus asiatiques, mais considérées comme inhabituelles dans d'autres groupes. Des études ont montré qu'il existe des différences notables dans les traits faciaux entre des personnes de différentes Ascendances, même pour des syndromes génétiques courants comme le syndrome de Down et d'autres.
Des médecins d'Europe, par exemple, peuvent rater des caractéristiques dysmorphiques chez des individus d’ascendance africaine car ils ne sont pas aussi familiers avec ces traits. Ce problème de reconnaissance devient de plus en plus critique à cause de l’augmentation des voyages et des migrations à l’échelle mondiale, ce qui mélange différentes ascendants et cultures et complique la manière dont les traits sont perçus et compris. Dans les régions avec des ascendants mélangés, reconnaître des maladies rares devient encore plus difficile car de nouveaux traits peuvent apparaître à travers ce mélange.
Technologie et ascendance
L’avancement de l’intelligence artificielle (IA) a également été impacté par des considérations d'ascendance. La plupart des données de santé se concentrent sur l'ascendance européenne, ce qui complique l’identification précise des traits faciaux chez des personnes d'autres origines. Certains outils d'IA conçus pour l'analyse d'images faciales ont été principalement formés sur des données de populations européennes et nord-américaines, ce qui peut réduire leur précision lorsqu'appliqués à des personnes d'autres ascendants.
Étant donné que les régions non européennes ont un taux de natalité beaucoup plus élevé, il est crucial d’inclure des données plus diverses dans ces systèmes. Il n’y a pas eu beaucoup de recherches sur la performance de l’IA lorsqu’elle est formée avec des données issues de diverses ascendances, ce qui soulève la question de savoir si l’IA devrait être formée séparément pour différents contextes ou si un ensemble de formation mixte pourrait fonctionner tout aussi bien.
Motivation pour une base de données plus diverse
Ce projet vise à répondre à trois objectifs clés :
- Scientifique : Étudier systématiquement comment différents traits selon les ascendants affectent les outils d’IA qui analysent les traits faciaux.
- Clinique : Améliorer les performances des outils d’IA sur des individus d’ascendance non européenne en utilisant un ensemble de données d’entraînement plus diversifié.
- Sociétal : Aider les populations sous-représentées en améliorant la performance de l’IA dans la reconnaissance de leurs traits uniques.
Pour atteindre ces objectifs, une nouvelle base de données appelée GestaltMatcher Database (GMDB) a été créée. Cette base de données se concentre sur le stockage des données d'un large éventail de patients avec différents antécédents ancestraux.
Structure et fonctionnalité de la GMDB
La GMDB est conçue pour collecter et partager des données efficacement. La structure implique de rassembler des informations de diverses sources comme des études publiées et des médecins collaborateurs. Elle permet aux patients de soumettre leurs photos et données et d'accéder à leurs informations quand ils le souhaitent. Cette base de données stocke diverses images médicales, comme des portraits, des radiographies et d’autres détails pertinents comme l'âge, le sexe et les informations génétiques.
Les utilisateurs enregistrés peuvent rechercher dans la base de données des cas spécifiques. Ils peuvent analyser des images individuelles et les comparer à d’autres cas, ce qui en fait un outil puissant tant pour les médecins que pour les chercheurs.
Diversité dans la GMDB
La GMDB vise à représenter différents groupes ancestraux. Actuellement, il y a un mélange d'ascendances européennes, asiatiques, africaines et d'autres. L'inclusion de données diverses a été un point majeur, surtout en provenance de populations sous-représentées. Beaucoup d'images contribuant à la GMDB proviennent d’individus africains, qui n'étaient auparavant pas publiées dans d'autres Bases de données.
Au fur et à mesure que la GMDB continue de croître, les chercheurs peuvent utiliser cet ensemble de données riche pour mieux comprendre comment les traits faciaux varient parmi différents groupes. Cela peut aider à développer de meilleurs outils de diagnostic qui prennent en compte l'ascendance, conduisant finalement à des soins de santé plus précis et complets.
Analyse des performances selon les ascendants
En évaluant la performance de l'outil d'IA de la GMDB, GestaltMatcher, il a été constaté que cette performance peut varier considérablement selon l'ascendance. La précision de l'IA a été évaluée à l'aide d'un ensemble de test d'images provenant d’individus avec divers antécédents. Fait intéressant, la performance pour les différents groupes d'ascendance a montré des niveaux de précision différents.
Par exemple, le meilleur résultat a été obtenu avec le groupe 'Autres', qui inclut des individus d'ascendance mixte. En revanche, la performance des groupes africain et asiatique était inférieure par rapport à l'ascendance européenne. Cependant, il est important de noter que le nombre d'échantillons de chaque groupe peut influencer ces résultats.
En regardant spécifiquement les troubles qui se chevauchent, le groupe européen a mieux performé par rapport aux groupes africain et asiatique. Pourtant, l'essentiel à retenir est qu'améliorer la diversité de l'ensemble de données peut augmenter considérablement la performance des outils d’IA.
Impact de la diversité des données sur l'entraînement de l'IA
La performance de l'outil d'IA s'est améliorée lorsque des ensembles de données d'entraînement plus variés ont été utilisés. Élargir l'ensemble de formation pour inclure des individus d'ascendance européenne et non européenne a considérablement amélioré la précision de l'outil. Les résultats ont montré que les effets d’une diversité accrue dans les données d'entraînement peuvent mener à une amélioration notable de la performance de l'IA, en particulier pour les individus de populations sous-représentées.
L'ajout de plus de données non européennes dans l'ensemble a amélioré de façon spectaculaire la performance des groupes non européens tout en maintenant une performance similaire pour le groupe européen.
Faire avancer la recherche
Le dataset GMDB-Fair est une avancée significative dans le domaine des outils d'IA en médecine. Ce dataset peut être partagé avec des chercheurs cherchant à développer et améliorer les outils de prochaine génération pour diagnostiquer des troubles rares basés sur les traits faciaux. De nombreuses études de recherche ont déjà bénéficié de l'utilisation des données GMDB pour améliorer leurs modèles.
En rendant les données disponibles, la GMDB vise à aider les chercheurs à créer de meilleurs outils capables d’identifier et de classifier les troubles plus précisément. L'objectif est de construire une compréhension plus claire de la manière dont les facteurs génétiques se manifestent dans les caractéristiques physiques.
Avantages éducatifs
La GMDB sert de ressource éducative cruciale pour les professionnels de la santé et les étudiants. La vaste collection d'images peut aider à former de nouveaux médecins, leur permettant de reconnaître et de comprendre divers traits faciaux associés aux troubles génétiques. Cet aspect éducatif est vital pour améliorer les compétences de diagnostic, surtout dans des populations de plus en plus diverses.
Conclusion
La GMDB se distingue comme une ressource unique dans le domaine de la recherche sur les troubles génétiques, en se concentrant sur des populations diverses. En promouvant la compréhension du dysmorphisme facial à travers un ensemble de données plus représentatif, elle vise à améliorer la précision des diagnostics et finalement à renforcer le soutien fourni aux groupes actuellement sous-représentés. À mesure que la GMDB continue de croître et d’évoluer, elle pose un précédent pour l’intégration de données diverses dans la recherche médicale et les applications d’IA, poussant vers de meilleurs résultats de santé pour tous, quel que soit leur ascendance.
Titre: GestaltMatcher Database - A global reference for facial phenotypic variability in rare human diseases
Résumé: The most important factor that complicates the work of dysmorphologists is the significant phenotypic variability of the human face. Next-Generation Phenotyping (NGP) tools that assist clinicians with recognizing characteristic syndromic patterns are particularly challenged when confronted with patients from populations different from their training data. To that end, we systematically analyzed the impact of genetic ancestry on facial dysmorphism. For that purpose, we established the GestaltMatcher Database (GMDB) as a reference dataset for medical images of patients with rare genetic disorders from around the world. We collected 10,980 frontal facial images - more than a quarter previously unpublished - from 8,346 patients, representing 581 rare disorders. Although the predominant ancestry is still European (67%), data from underrepresented populations have been increased considerably via global collaborations (19% Asian and 7% African). This includes previously unpublished reports for more than 40% of the African patients. The NGP analysis on this diverse dataset revealed characteristic performance differences depending on the composition of training and test sets corresponding to genetic relatedness. For clinical use of NGP, incorporating non-European patients resulted in a profound enhancement of GestaltMatcher performance. The top-5 accuracy rate increased by +11.29%. Importantly, this improvement in delineating the correct disorder from a facial portrait was achieved without decreasing the performance on European patients. By design, GMDB complies with the FAIR principles by rendering the curated medical data findable, accessible, interoperable, and reusable. This means GMDB can also serve as data for training and benchmarking. In summary, our study on facial dysmorphism on a global sample revealed a considerable cross ancestral phenotypic variability confounding NGP that should be counteracted by international efforts for increasing data diversity. GMDB will serve as a vital reference database for clinicians and a transparent training set for advancing NGP technology.
Auteurs: Tzung-Chien Hsieh, H. Lesmann, A. Hustinx, S. Moosa, E. Marchi, P. Caro, I. M. Abdelrazek, J. T. Pantel, H. Klinkhammer, M. ten Hagen, T. Kamphans, W. Meiswinkel, J.-M. Li, B. Javanmardi, A. Knaus, A. Uwineza, C. Knopp, T. Tkemaladze, M. Elbracht, L. Mattern, R. A. Jamra, C. Velmans, V. Strehlow, H. Goel, B. C. Nunes, T. Vilella, I. F. Pinheiro, C. A. Kim, M. I. Melaragno, T. S. Barakat, A. Nabil, J. Suh, L. Averdunk, E. Ekure, C. Graziano, P. Phowthongkum, N. Guzel, T. B. Haack, T. Brunet, S. Rudnik-Schoneborn, K. Platzer, A. Borovikov, F. Schnabel, L. Heuft, Herrmann
Dernière mise à jour: 2024-10-08 00:00:00
Langue: English
Source URL: https://www.medrxiv.org/content/10.1101/2023.06.06.23290887
Source PDF: https://www.medrxiv.org/content/10.1101/2023.06.06.23290887.full.pdf
Licence: https://creativecommons.org/licenses/by-nc/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.