Simple Science

La science de pointe expliquée simplement

# Informatique# Apprentissage automatique# Intelligence artificielle# Vision par ordinateur et reconnaissance des formes

Biais racial dans les modèles IA pour l'imagerie du cancer du sein

Examen des biais raciaux dans les prédictions d'IA à partir des données d'IRM mammaire.

― 7 min lire


Biais raciaux de l'IABiais raciaux de l'IAdans les modèles decancer du seinpour le cancer du sein.important dans les prédictions d'IAUne étude révèle un biais racial
Table des matières

L'intelligence artificielle (IA) devient de plus en plus courante dans des domaines comme la médecine. Cependant, des études récentes montrent que l'IA peut parfois fonctionner différemment selon les groupes de personnes, en fonction de caractéristiques comme la race. C'est un problème que les chercheurs essaient de comprendre. La plupart des travaux antérieurs se concentraient sur des méthodes d'apprentissage profond. Toutefois, les méthodes d'IA traditionnelles, qui utilisent des caractéristiques soigneusement sélectionnées, pourraient aussi montrer des biais. Cet article examine le biais racial dans les modèles de forêt aléatoire qui utilisent des caractéristiques dérivées d'IRM mammaires.

Contexte

Les modèles d'IA peuvent montrer des biais pour diverses raisons. Une raison majeure est lorsque les données d'entraînement ne représentent pas équitablement les différents groupes. Par exemple, si un modèle d'IA est principalement formé sur des données d'une seule race, il pourrait ne pas bien fonctionner pour les autres. Ce problème a été observé dans diverses tâches d'imagerie médicale, où les modèles d'IA fonctionnent mieux pour certains groupes démographiques que pour d'autres.

Dans de nombreux cas, les chercheurs se sont concentrés sur des modèles d'apprentissage profond qui apprennent des caractéristiques pendant l'entraînement. Cela peut mener à des biais s'il y a des différences dans les données pour différents groupes. Cependant, les approches traditionnelles qui reposent sur des caractéristiques fixes, comme la radiomique, ont été moins étudiées à cet égard.

Objectif de l'étude

Dans cette étude, les chercheurs voulaient savoir si les modèles de forêt aléatoire formés sur des caractéristiques radiomiques provenant d'IRM mammaires pouvaient montrer un biais racial. Ils se sont concentrés spécifiquement sur la prévision des types moléculaires des tumeurs chez les patientes atteintes de Cancer du sein. C'est une tâche importante parce que le traitement des tumeurs peut dépendre de leur sous-type moléculaire. Normalement, ce sous-type est déterminé par une biopsie au besoin, qui est invasive. Si l'IA peut le prédire à partir d'images, cela pourrait éviter d'avoir recours à de telles procédures.

Collecte de données

Les chercheurs ont utilisé des données provenant de 922 femmes atteintes de cancer du sein, qui ont subi des IRM préopératoires. Ces données incluaient non seulement les images d'IRM, mais aussi des informations démographiques et cliniques. Ils ont dérivé plus de 500 caractéristiques radiomiques à partir des IRM, divisées en trois catégories : sein entier, tissu fibroglandulaire (FGT), et tumeur uniquement. La population de l'étude était principalement blanche (70 %), avec des patientes noires représentant environ 22 %.

Méthodologie

Pour étudier le biais racial potentiel, les chercheurs ont d'abord vérifié si les caractéristiques radiomiques pouvaient prédire la race. Ils ont formé des classificateurs de forêt aléatoire en utilisant différents ensembles de caractéristiques et ont veillé à avoir une représentation équilibrée des deux races dans les ensembles de données d'entraînement et de test. L'objectif était de mesurer si l'exactitude des prédictions variait selon la race.

Les chercheurs ont ensuite examiné comment l'entraînement sur des ensembles de données déséquilibrés pourrait affecter l'exactitude des modèles dans la prédiction du sous-type de la tumeur. Ils ont créé des ensembles d'entraînement qui n'incluaient que des patientes blanches ou noires pour voir si cela changerait les performances du modèle.

Résultats de la classification raciale

Les résultats ont montré que les modèles pouvaient prédire la race avec une précision de 60 à 70 %. Cela indique que les caractéristiques radiomiques contenaient certaines informations permettant d'identifier la race. Les sujets blancs et noirs avaient des taux de prédiction similaires, ce qui suggère que le biais racial est une préoccupation réelle dans l'entraînement de l'IA.

Résultats de l'analyse des biais

Ensuite, les chercheurs ont évalué comment les données d'entraînement déséquilibrées avaient un impact sur le biais. Ils ont divisé leur ensemble de données en ensembles d'entraînement et de test tout en maintenant la distribution raciale et du sous-type de la tumeur. Ils ont formé des modèles en utilisant différents sous-ensembles de caractéristiques et ont observé comment chaque modèle fonctionnait en fonction de la race des sujets concernés.

Les résultats ont indiqué que les modèles formés sur des données incluant les deux races fonctionnaient mieux pour les patientes blanches que pour les patientes noires. La différence de performance variait de 3 % à 11 %, selon les modèles utilisés. Cela suggère que la façon dont les données d'entraînement sont équilibrées peut influencer les résultats des modèles d'IA, mettant en avant un potentiel biais.

Analyse des covariables

Pour mieux comprendre le biais observé, les chercheurs ont examiné divers facteurs qui pouvaient affecter la race et la performance du modèle. Ils ont regardé des caractéristiques des patientes comme l'âge et les types de traitement. L'analyse a révélé des différences significatives dans ces caractéristiques entre les deux groupes de patientes. Par exemple, les patientes noires étaient plus susceptibles d'avoir certains types de tumeurs qui sont généralement traités différemment des patientes blanches.

Discussion

Cette étude met en avant la possibilité de biais racial dans les modèles d'IA qui utilisent des caractéristiques radiomiques provenant d'IRM mammaires. Elle montre que même les méthodes traditionnelles, qui sont considérées comme moins sujettes au biais, peuvent encore montrer des injustices basées sur la race. Les résultats suggèrent que la méthode de sélection des caractéristiques et l'équilibre des données d'entraînement peuvent avoir un impact significatif sur la performance des modèles d'IA.

Étonnamment, d'autres études utilisant le même type de données n'ont trouvé aucune différence de performance significative basée sur la race. Cela pourrait être dû à des différences dans la façon dont les ensembles d'entraînement ont été créés. Contrairement à ces études, cette recherche a volontairement créé des ensembles de données déséquilibrés, ce qui a peut-être révélé davantage sur les risques de biais.

Conclusion

Le principal enseignement de cette recherche est l'importance de prendre en compte les biais potentiels dans les modèles d'IA utilisés en santé. La présence d'informations identifiant la race dans les caractéristiques radiomiques montre que même les méthodes traditionnelles peuvent être influencées par les données sur lesquelles elles sont entraînées. Cela souligne la nécessité d'une enquête plus approfondie sur les causes de biais, y compris l'examen des facteurs de confusion et des interactions entre les diverses caractéristiques des patientes.

Alors que l'IA joue un rôle de plus en plus important dans le secteur de la santé, aborder ces biais sera crucial. Les chercheurs doivent veiller à ce que les systèmes d'IA soient équitables et efficaces pour tous les groupes, pas seulement pour ceux qui dominent les données d'entraînement. Les études futures devront explorer des moyens de réduire les biais et de promouvoir une performance équitable de l'IA dans les contextes médicaux.

En résumé, la présence de biais racial dans les modèles d'IA formés sur des images médicales souligne la nécessité d'une attention particulière à la représentation des données et aux stratégies d'entraînement des modèles. Pour l'avenir, il sera important de rechercher des solutions qui peuvent aider à éliminer les biais tout en maintenant l'efficacité et la précision dans les applications de l'IA.

Source originale

Titre: An Investigation Into Race Bias in Random Forest Models Based on Breast DCE-MRI Derived Radiomics Features

Résumé: Recent research has shown that artificial intelligence (AI) models can exhibit bias in performance when trained using data that are imbalanced by protected attribute(s). Most work to date has focused on deep learning models, but classical AI techniques that make use of hand-crafted features may also be susceptible to such bias. In this paper we investigate the potential for race bias in random forest (RF) models trained using radiomics features. Our application is prediction of tumour molecular subtype from dynamic contrast enhanced magnetic resonance imaging (DCE-MRI) of breast cancer patients. Our results show that radiomics features derived from DCE-MRI data do contain race-identifiable information, and that RF models can be trained to predict White and Black race from these data with 60-70% accuracy, depending on the subset of features used. Furthermore, RF models trained to predict tumour molecular subtype using race-imbalanced data seem to produce biased behaviour, exhibiting better performance on test data from the race on which they were trained.

Auteurs: Mohamed Huti, Tiarna Lee, Elinor Sawyer, Andrew P. King

Dernière mise à jour: 2023-09-29 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2309.17197

Source PDF: https://arxiv.org/pdf/2309.17197

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires