Simple Science

La science de pointe expliquée simplement

# Statistiques# Apprentissage automatique# Apprentissage automatique# Méthodologie

Une nouvelle approche pour analyser des données multivues

Présentation de jointLCA, une méthode pour mieux comprendre les connexions dans les données multivues.

― 10 min lire


Nouvelle méthode pour lesNouvelle méthode pour lesdonnées multivuesrelations complexes dans les données.jointLCA améliore l'analyse des
Table des matières

Ces dernières années, la technologie nous a permis de rassembler plus d'infos de différents domaines d'étude. Un type de données qu'on collecte s'appelle les données multivues, ce qui signifie qu'on a différents genres de mesures prises sur le même groupe de personnes ou sujets. Par exemple, dans le projet Roadmap Epigenomics, les scientifiques ont collecté des données sur divers marqueurs biologiques et expressions de gènes provenant de plein de types de cellules. Un autre cas est le défi de prédiction de sensibilité aux médicaments NCI-DREAM, qui s'est concentré sur différentes mesures biologiques issues de lignées cellulaires de cancer du sein.

Avec la montée de ces données multivues, les chercheurs cherchent à trouver des connexions utiles entre les différents types d'infos qu'on a. Par exemple, en neuroscience, des études regardent comment les facteurs génétiques, démographiques et comportementaux sont liés aux résultats d'imagerie cérébrale. Ce genre d'analyse peut nous aider à comprendre comment différentes activités cérébrales se rapportent à des traits observables chez les individus.

Une méthode courante utilisée pour trouver des relations entre deux ensembles de données s'appelle l'analyse de corrélation canonique (CCA). La CCA cherche un moyen de transformer chaque ensemble de données pour maximiser la corrélation entre eux. L'idée, c'est que les ensembles de données sont tous liés par un facteur commun, et la CCA aide à révéler cette connexion partagée. Au fil du temps, les chercheurs ont créé plusieurs variations de la CCA pour traiter des scénarios plus complexes. Certaines variations, comme la CCA à noyau et la CCA profonde, offrent plus de flexibilité en transformant les données en nouvelles formes qui peuvent mieux capturer les relations. Dans les situations où les ensembles de données contiennent plus de caractéristiques que d'observations, la CCA sparse se concentre sur l'identification des connexions les plus importantes tout en réduisant le bruit.

Alors que les méthodes CCA traditionnelles traitent généralement deux ensembles de données, les chercheurs ont travaillé à l'élargissement de ces méthodes pour accommoder plusieurs vues de données en même temps. Certaines approches se concentrent sur la maximisation des corrélations entre des paires d'ensembles de données, tandis que d'autres recherchent des structures communes à travers toutes les vues de données. Ces méthodes utilisent souvent la décomposition matricielle pour décomposer les données en parties plus simples pour l'analyse.

Cependant, un défi avec ces méthodes est de déterminer combien de Composants partagés il y a parmi les ensembles de données. Pour deux vues de données, les chercheurs peuvent utiliser des outils visuels comme les graphiques de corrélation cumulative pour décider quand arrêter d'ajouter de nouveaux composants à leur analyse. Bien que cette approche soit pratique, elle repose sur le jugement personnel et peut être quelque peu subjective. Certaines méthodes, comme JIVE et SLIDE, offrent des moyens plus clairs de sélectionner le nombre approprié de composants, mais elles se concentrent toujours principalement sur des ensembles de données individuels.

À la lumière de ces défis, nous proposons une nouvelle méthode appelée analyse de composants liés conjointe (jointLCA) pour des données multivues. Cette approche vise à identifier à la fois les contributions spécifiques de chaque vue de données et les composants partagés en même temps. Le jointLCA utilise un modèle de décomposition matricielle qui sépare les structures communes et individuelles dans chaque vue de données. En faisant cela, on peut mieux comprendre les connexions parmi plusieurs types de données.

L'objectif du jointLCA est d'estimer simultanément le nombre de composants partagés et les contributions de chaque vue. Pour y parvenir, on crée une fonction objective qui inclut un nouveau terme de pénalité pour garantir la cohérence à travers toutes les vues. On utilise également un processus de réajustement pour corriger les biais qui peuvent survenir à cause de la pénalité.

La structure de cet article est la suivante : on introduit d'abord le modèle de décomposition matricielle et la fonction objective pour le jointLCA. Ensuite, on décrit l'algorithme utilisé pour résoudre le problème d'optimisation, y compris le processus d'initialisation et la procédure de réajustement. On comparera ensuite la performance du jointLCA à d'autres méthodes en utilisant des simulations. Enfin, on appliquera le jointLCA à de vraies données multivues avant de conclure par une discussion.

Méthode Proposée

Supposons qu'on ait plusieurs vues de données collectées à partir de plusieurs sujets, et on note la matrice de covariance croisée d'échantillon entre n'importe quelles deux vues de données. On définit un modèle génératif qui décrit comment ces vues de données se rapportent les unes aux autres. Chaque vue de données peut être décomposée en une structure conjointe (commune à toutes les vues) et une structure individuelle (unique à chaque vue). Une matrice de scores partagée est utilisée à travers toutes les vues, tandis que des matrices de scores spécifiques s'appliquent aux vues individuelles.

On vise à trouver des matrices de chargement pour chaque vue de données et à déterminer le rang du sous-espace latent commun. Notre approche utilise une somme pondérée de différences au carré pour représenter comment chaque vue de données s'ajuste au modèle. Pour effectuer une sélection de rang simultanée, on introduit un terme de pénalité qui garantit que toutes les vues de données ont le même nombre de composants partagés.

Algorithme d'Estimation

Pour optimiser la méthode proposée, on mettra à jour les paramètres de manière itérative tout en gardant les autres fixes. La première étape consiste à estimer la matrice de scores partagée en fixant les matrices de chargement. Cette étape simplifie le problème d'optimisation, permettant d'appliquer une technique statistique bien connue appelée le problème orthogonal de Procruste. Les vecteurs singuliers gauche et droit peuvent être obtenus par décomposition en valeurs singulières.

Une fois qu'on a la matrice de scores partagée, on peut passer à l'estimation des matrices de chargement spécifiques pour chaque vue. En suivant une approche itérative similaire, on peut arriver à des solutions pour les matrices de chargement de manière cohérente.

On doit aussi répéter ce processus pour estimer les entrées diagonales, en veillant à ce qu'elles reflètent les composants de la structure conjointe. Dans notre optimisation, on fixe aussi des valeurs initiales basées sur l'hypothèse que tous les composants sont globalement partagés.

Réajustement du Modèle

Après avoir estimé le rang des composants communs, le terme de pénalité peut réduire les entrées non nulles. Pour résoudre ce problème, on réajuste le modèle sans le terme de pénalité et applique un processus itératif pour mettre à jour les estimations. Cela nous permet d'obtenir des estimations précises sans biais causé par la pénalité précédente.

Étude de Simulation

On a réalisé diverses études de simulation pour évaluer la performance du jointLCA. On l'a comparé à d'autres méthodes existantes, comme JIVE et l'analyse canonique multiple de corrélation (mCCA). Dans ces simulations, on a configuré différents scénarios en modifiant les rangs de la structure conjointe et des composants individuels. On visait à déterminer à quel point chaque méthode identifiait correctement les rangs et estimait les matrices de chargement.

En analysant les résultats, il est devenu clair que le jointLCA fournissait systématiquement des estimations de rang précises dans les différents scénarios, surpassant les concurrents dans les cas où la force du signal conjoint variait. Alors que JIVE a bien performé dans certaines situations, il a eu du mal dans d'autres, notamment lorsque la taille de l'échantillon était plus petite ou que la complexité augmentait.

Lors de l'analyse de paramètres spécifiques avec trois vues de données, le jointLCA a surpassé JIVE et mCCA en termes de précision et de stabilité, montrant son efficacité à extraire des informations utiles des données multivues. Dans l'ensemble, le jointLCA fournissait des estimations de matrices de chargement plus fiables par rapport aux méthodes séquentielles.

Application à des Données Réelles

On a appliqué le jointLCA à plusieurs ensembles de données multivues réels. Par exemple, le projet Nutrimouse a fourni des mesures sur des souris, y compris des expressions de gènes et des niveaux d'acides gras. Notre analyse a révélé que la structure conjointe identifiait deux composants communs, aidant à découvrir des relations entre différents facteurs biologiques.

Un autre exemple est l'ensemble de données de Boston Housing, qui contient diverses caractéristiques liées aux prix de l'immobilier. En appliquant le jointLCA, on a construit un nouvel ensemble de caractéristiques basé sur la matrice de scores, ce qui a amélioré les prédictions lorsqu'il a été introduit dans des modèles de régression.

De plus, les données Russett examinaient les inégalités agricoles, le développement industriel et l'instabilité politique entre différents pays. Notre méthode a identifié des paires de variates canoniques, illustrant comment le développement industriel pourrait se rapporter aux régimes politiques.

Enfin, on a regardé des données de cellules uniques collectées à partir de tissus cérébraux de plusieurs patients. En visualisant les résultats, on a trouvé que les composants communs capturaient des infos partagées importantes sur les cellules.

Discussion

Il y a eu un intérêt croissant pour l'étude de données complexes provenant de multiples sources. C'est crucial de capturer les variations qui sont communes à différentes vues de données, car cela peut mener à une meilleure compréhension des relations entre elles.

Les méthodes existantes se concentrent principalement sur la projection de chaque vue de données sur un espace latent commun. Cependant, elles pourraient ne pas déterminer efficacement le nombre de composants partagés, ce qui est essentiel pour une analyse précise. Le jointLCA s'attaque à ce défi en identifiant des structures partagées tout en déterminant le rang de l'espace latent commun.

Notre méthode proposée démontre une performance robuste dans diverses simulations et applications de données réelles par rapport aux approches traditionnelles. De plus, le jointLCA peut être adapté pour traiter des ensembles de données de haute dimension, bien que des travaux futurs soient nécessaires pour développer des méthodes computationnelles efficaces pour traiter des interactions complexes.

En résumé, le jointLCA sert d'outil précieux pour les chercheurs qui cherchent à découvrir des connexions parmi différentes vues de données. Sa capacité à estimer simultanément des composants partagés et à évaluer les matrices de chargement peut faciliter de meilleures idées sur l'analyse de données multivues.

Plus d'auteurs

Articles similaires