Évaluer la convergence dans l'inférence variationnelle par gradient naturel stochastique
Cette étude évalue les taux de convergence du NGVI stochastique dans des modèles probabilistes.
― 6 min lire
Table des matières
- Contexte
- Vraisemblances Conjuguées et NGVI Stochastique
- La Borne Inférieure de l'Évidence
- Descente de gradient naturel
- Connexion avec la Descente Miroir
- Implémentation dans des Contextes Stochastiques
- Estimateurs de Gradient Stochastiques Communs
- Convergence de NGVI Stochastique
- Observations sur le Taux de Convergence
- Simulations Numériques
- Régression Linéaire Bayésienne
- Vraisemblances Non-Conjugées
- Conclusions
- Directions Futures
- Source originale
L'inférence variationnelle par le gradient naturel stochastique (NGVI) est une méthode super courante pour déduire le postérieur dans des modèles probabilistes. Même si c'est populaire dans plein d'applis, on en sait pas beaucoup sur ses performances, surtout sur la rapidité avec laquelle elle converge vers la vraie solution dans un contexte stochastique. On présente des preuves pour combler cette lacune en se concentrant sur les taux de convergence de NGVI stochastique, surtout quand on traite avec des vraisemblances conjuguées plus simples.
Contexte
En inférence variationnelle, on veut généralement approximer la distribution postérieure de certaines variables latentes données des données observées. On fait ça en optimisant une borne inférieure sur l'évidence, connue sous le nom de evidence lower bound (ELBO). Le processus implique de mettre une prior sur les variables latentes et de trouver une famille variationnelle qui peut capter la complexité du postérieur.
L'inférence variationnelle par le gradient naturel (NGVI) améliore l'inférence variationnelle standard en utilisant le gradient naturel au lieu du gradient habituel. Ça est censé fournir une direction de recherche plus efficace dans l'espace des paramètres.
Vraisemblances Conjuguées et NGVI Stochastique
Pour les vraisemblances conjuguées, on a établi le premier taux de convergence non asymptotique pour NGVI stochastique. Dans ces cas-là, la complexité de la convergence n'est pas pire que celle de la Descente de gradient stochastique, une méthode d'optimisation couramment utilisée. On argumente que les taux ont probablement de meilleures dépendances constantes, menant à une convergence plus rapide en pratique.
À l'inverse, les choses deviennent plus complexes avec les vraisemblances non conjuguées. Là, NGVI stochastique a tendance à optimiser un objectif non convexe de manière implicite. Ça complique la preuve d'un taux de convergence global, car ça peut nécessiter des nouvelles idées significatives pour optimiser l'ELBO avec des gradients naturels.
La Borne Inférieure de l'Évidence
En inférence variationnelle, on vise à optimiser la borne inférieure de l'évidence (ELBO) pour approximer la vraie distribution postérieure. Ça implique de minimiser la divergence de Kullback-Leibler entre la distribution variationnelle et le vrai postérieur. L'ELBO elle-même sert de mesure de la qualité de notre famille variationnelle à approximater le postérieur.
Descente de gradient naturel
Comparé à la descente de gradient standard, la descente de gradient naturel ajuste les mises à jour en fonction de la géométrie de l'espace des paramètres. Ça se fait en tenant compte de la matrice d'information de Fisher. Le gradient naturel suit donc un chemin plus éclairé vers les paramètres optimaux.
Connexion avec la Descente Miroir
La descente de gradient naturel peut aussi être vue à travers le prisme de la descente miroir, une généralisation de l'approche classique de descente de gradient. Cette connexion nous permet d'utiliser des idées du cadre de descente miroir pour analyser la descente de gradient naturel dans un environnement stochastique.
Implémentation dans des Contextes Stochastiques
Implémenter NGVI stochastique vient avec ses défis. Il faut s'assurer que les mises à jour restent dans le domaine des paramètres, car des mises à jour incorrectes peuvent mener à une divergence ou à des échecs de convergence. On établit des conditions sous lesquelles des mises à jour valides peuvent être maintenues, ce qui est crucial pour le bon fonctionnement de la méthode en pratique.
Estimateurs de Gradient Stochastiques Communs
Deux estimateurs de gradient stochastiques importants sont mis en avant. L'un utilise le trick de reparamétrisation, tandis que l'autre utilise des gradients spécifiques dérivés des propriétés du modèle. En comprenant leurs comportements, on peut s'assurer que les mises à jour restent valides et que la convergence peut être atteinte.
Convergence de NGVI Stochastique
Des travaux précédents suggèrent que NGVI converge rapidement pour les vraisemblances conjuguées. Cependant, établir un taux de convergence pour NGVI stochastique n'a pas été simple. En s'appuyant sur des développements récents dans la descente miroir stochastique, on vise à dériver un taux de convergence qui tient même quand on travaille avec des gradients stochastiques.
Observations sur le Taux de Convergence
Le taux de convergence qu'on dérive révèle deux caractéristiques importantes : il interpole entre des contextes déterministes et stochastiques, et il ne repose pas sur la distance entre l'initialisation et le vrai postérieur. Ça indique que les gradients stochastiques peuvent mener à des améliorations substantielles dans l'optimisation, peu importe les estimations initiales.
Simulations Numériques
Dans nos expériences, on a appliqué NGVI stochastique à divers jeux de données, y compris une régression linéaire bayésienne sur le dataset Bike et une régression logistique sur le dataset Mushroom. Les résultats ont constamment montré que NGVI stochastique surpassait la descente de gradient stochastique traditionnelle.
Régression Linéaire Bayésienne
Dans les expériences de régression linéaire bayésienne, on a optimisé la négative ELBO en utilisant à la fois la descente de gradient stochastique et NGVI stochastique. Les résultats ont indiqué que bien que les deux méthodes aient des taux de convergence similaires, NGVI stochastique a montré une performance supérieure lors des premières itérations, suggérant qu'il pourrait avoir un meilleur facteur constant en pratique.
Vraisemblances Non-Conjugées
Dans les comparaisons impliquant des vraisemblances non conjuguées, alors que NGVI stochastique surpassait encore la descente de gradient stochastique, la différence de performance était moins marquée. Cependant, NGVI stochastique était généralement plus facile à régler en pratique, indiquant une performance plus fluide à travers les variations de taille de pas.
Conclusions
Les résultats de ce travail donnent une image plus claire du comportement de NGVI stochastique dans divers contextes. On a établi des taux de convergence importants pour les vraisemblances conjuguées tout en notant les défis qui se posent avec les vraisemblances non conjuguées. Les preuves empiriques soutiennent les affirmations faites concernant la rapidité et l'efficacité de NGVI stochastique, ce qui pourrait mener à des applications plus larges de cette méthode dans des études futures.
Directions Futures
D'autres recherches sont nécessaires pour explorer les implications de la non-convexité dans NGVI stochastique et pour identifier de nouvelles propriétés de l'ELBO qui pourraient conduire à de meilleurs taux de convergence. Ça pourrait ouvrir des opportunités pour des applications plus robustes à travers un plus large éventail de modèles probabilistes.
Titre: Understanding Stochastic Natural Gradient Variational Inference
Résumé: Stochastic natural gradient variational inference (NGVI) is a popular posterior inference method with applications in various probabilistic models. Despite its wide usage, little is known about the non-asymptotic convergence rate in the \emph{stochastic} setting. We aim to lessen this gap and provide a better understanding. For conjugate likelihoods, we prove the first $\mathcal{O}(\frac{1}{T})$ non-asymptotic convergence rate of stochastic NGVI. The complexity is no worse than stochastic gradient descent (\aka black-box variational inference) and the rate likely has better constant dependency that leads to faster convergence in practice. For non-conjugate likelihoods, we show that stochastic NGVI with the canonical parameterization implicitly optimizes a non-convex objective. Thus, a global convergence rate of $\mathcal{O}(\frac{1}{T})$ is unlikely without some significant new understanding of optimizing the ELBO using natural gradients.
Auteurs: Kaiwen Wu, Jacob R. Gardner
Dernière mise à jour: 2024-06-03 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.01870
Source PDF: https://arxiv.org/pdf/2406.01870
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.