Avancées dans la structure-from-motion mondiale avec GLOMAP
GLOMAP améliore l'efficacité et la précision de la SfM mondiale pour la modélisation 3D.
― 8 min lire
Table des matières
- Deux Approches : SfM Incrémental vs. Global
- Présentation de GLOMAP
- Défis du SfM Global
- Surmonter les Défis
- Comprendre le Processus Global de Structure-from-Motion
- Recherche de Correspondances
- Estimation de la Pose de Caméra Globale
- Raffinement de la Structure et de la Pose Globales
- L’Approche Unique de GLOMAP
- Contributions Techniques de GLOMAP
- Construction de Pistes de Caractéristiques
- Positionnement Global
- Ajustement Global du Bundle
- Clustering des Caméras
- Évaluation des Performances
- Conclusion
- Source originale
- Liens de référence
Récupérer des formes 3D et le mouvement des caméras à partir d'images est un domaine de recherche super important en vision par ordinateur. Ce processus, connu sous le nom de Structure-from-Motion (SfM), aide à créer des modèles 3D à partir d'une série de photos. Il existe deux approches principales : les méthodes incrémentales et les Méthodes Globales.
Les méthodes incrémentales sont réputées pour leur précision et leur fiabilité, mais elles peuvent être lentes et moins évolutives. D'un autre côté, les méthodes globales gèrent des ensembles de données plus volumineux de manière plus efficace, mais elles ont historiquement pris du retard en termes de précision par rapport aux approches incrémentales. Cet article revient sur le SfM global et présente un nouveau système qui vise à améliorer les performances tout en restant efficace.
Deux Approches : SfM Incrémental vs. Global
Les deux méthodes, incrémentales et globales, commencent par extraire et associer des caractéristiques à partir des images, puis estiment les positions des caméras en fonction de paires d'images.
Dans les méthodes incrémentales, le processus commence avec deux images. Au fur et à mesure que d'autres images sont ajoutées, elles sont mises en correspondance et intégrées étape par étape. Cela mène à une reconstruction détaillée, mais peut être lent à cause des ajustements répétés nécessaires pour la précision.
Les méthodes globales, elles, abordent le problème d'un coup. Elles estiment les positions des caméras pour chaque image en une seule étape en analysant toutes les images ensemble. Ça les rend plus rapides et leur permet de gérer plus de données, mais ça peut souvent conduire à moins de précision par rapport aux méthodes incrémentales.
Présentation de GLOMAP
GLOMAP est un nouveau système conçu pour le SfM global qui combine les forces des deux méthodes. Il fournit des résultats précis et robustes tout en étant beaucoup plus rapide que les systèmes incrémentaux traditionnels. En se concentrant sur une seule étape pour estimer les Positions de caméras et les structures 3D, GLOMAP vise à combler le fossé entre les deux approches.
Défis du SfM Global
Le SfM global fait face à plusieurs défis, surtout pendant l'étape d'estimation des positions des caméras. Un gros souci est l'ambiguïté d'échelle, où la distance entre les positions des caméras ne peut pas être déterminée avec précision à partir des positions relatives.
Un autre défi vient de la nécessité d'informations précises sur les réglages des caméras, appelées intrinsics. Sans ces infos, il devient beaucoup plus compliqué d'estimer correctement les positions. Enfin, quand le mouvement de la caméra est presque droit, ça peut engendrer des problèmes qui compliquent le processus de reconstruction.
Surmonter les Défis
Pour répondre à ces défis, beaucoup d'efforts de recherche récents ont essayé d'incorporer plus d'infos dans le processus d'estimation. Au lieu de traiter les positions des caméras et les structures 3D séparément, GLOMAP les combine en une seule étape d'estimation.
Cette intégration permet d'obtenir des résultats plus cohérents et précis. GLOMAP peut gérer des réglages de caméra inconnus, ce qui le rend adapté aux images collectées sur internet ou dans des scénarios dynamiques comme la conduite.
Comprendre le Processus Global de Structure-from-Motion
Le processus de SfM global se compose généralement de trois étapes principales : la recherche de correspondances, l'estimation des positions des caméras et le raffinement à la fois des données de caméra et de structure.
Recherche de Correspondances
La première étape consiste à trouver des caractéristiques clés dans les images et à les faire correspondre à travers différentes photos. Cette mise en correspondance est cruciale car elle établit la base pour le reste du processus.
Les points de caractéristiques sont détectés dans les images puis associés pour trouver des paires d'images qui se chevauchent. Bien que cette étape génère beaucoup de correspondances potentielles, beaucoup sont généralement incorrectes. Ainsi, des méthodes robustes sont appliquées pour filtrer les paires inexactes en fonction de leurs relations géométriques.
Estimation de la Pose de Caméra Globale
L'étape suivante consiste à estimer où chaque caméra était quand l'image a été prise. Dans le SfM global, ça se fait d'un coup, ce qui est différent de la méthode incrémentale.
Cela implique de faire une moyenne des positions des caméras en fonction des relations géométriques trouvées plus tôt. L'objectif est de rassembler toutes les infos des caméras d'une manière moins affectée par le bruit et les valeurs aberrantes.
Raffinement de la Structure et de la Pose Globales
Une fois les caméras positionnées, l'étape suivante est de créer une structure 3D en utilisant la Triangulation. Cette étape consiste à combiner les positions des caméras avec les caractéristiques appariées pour produire une reconstruction précise de la scène. Après cela, un processus de raffinement est réalisé pour améliorer la précision en minimisant les erreurs dans les données.
L’Approche Unique de GLOMAP
GLOMAP présente une nouvelle façon de combiner l'estimation des positions des caméras et des points en une seule étape globale, ce qui contraste avec les méthodes globales précédentes. Cette position unique permet d'obtenir des résultats plus robustes et peut fonctionner sans nécessiter des réglages précis des caméras.
En se concentrant sur les positions des caméras et des points en même temps, GLOMAP parvient efficacement à améliorer la robustesse contre le bruit et les erreurs dans les données.
Contributions Techniques de GLOMAP
GLOMAP vise à améliorer le processus de SfM global traditionnel en introduisant une méthode plus rationalisée et efficace pour reconstruire des structures 3D. Les aspects clés incluent :
Construction de Pistes de Caractéristiques
Dans GLOMAP, seules les correspondances de caractéristiques fiables sont utilisées pour construire des pistes qui représentent les caractéristiques observées à travers les images. Cela garantit que la reconstruction commence avec une base solide de données, ce qui est essentiel pour des résultats précis.
Positionnement Global
Le cœur de GLOMAP réside dans sa stratégie de positionnement global. Au lieu d'estimer les translations séparément et ensuite de trianguler les points, il effectue ces opérations ensemble, permettant une plus grande précision et efficacité.
Cela signifie que le système peut mieux fonctionner même lorsque les intrinsics de la caméra ne sont pas connus ou lorsque les caméras se déplacent dans des directions similaires.
Ajustement Global du Bundle
Bien qu'une solide estimation initiale soit obtenue grâce au positionnement global, GLOMAP optimise encore davantage les résultats par des rounds d'ajustement global du bundle. Cette étape minimise les erreurs dans la structure globale et améliore le modèle 3D final.
Clustering des Caméras
Lorsqu'il travaille avec des images provenant de diverses sources, GLOMAP applique une méthode de clustering pour garantir que les modèles reconstruits restent cohérents et consistants. Cette étape est cruciale pour éviter que des images sans rapport ne soient incorrectement combinées dans le même modèle.
Évaluation des Performances
Pour valider l'efficacité de GLOMAP, il a été testé sur divers ensembles de données, couvrant différentes situations allant des collections désordonnées à des séquences d'images.
Dans chaque cas, GLOMAP a systématiquement surpassé d'autres systèmes de SfM global, obtenant des résultats comparables ou meilleurs que la méthode incrémentale la plus connue, COLMAP.
Les performances ont été évaluées en fonction de métriques de précision, où GLOMAP a montré des taux de rappel plus élevés et de meilleures scores de surface sous la courbe (AUC) par rapport aux systèmes concurrents.
Conclusion
GLOMAP est une avancée significative dans le domaine de la Structure-from-Motion globale. En intégrant l'estimation des positions des caméras et des structures 3D en une seule étape, il offre des performances améliorées tout en maintenant l'efficacité.
Les défis inhérents au SfM global ont été abordés, résultant en un système non seulement plus rapide mais aussi plus fiable. La recherche démontre qu'une reconstruction efficace à partir d'images peut être réalisée, en faisant un outil précieux pour diverses applications en vision par ordinateur et au-delà.
La disponibilité en open-source de GLOMAP encourage une exploration et un développement supplémentaires dans ce domaine, contribuant aux avancées continues dans les techniques de modélisation et de reconstruction 3D.
Titre: Global Structure-from-Motion Revisited
Résumé: Recovering 3D structure and camera motion from images has been a long-standing focus of computer vision research and is known as Structure-from-Motion (SfM). Solutions to this problem are categorized into incremental and global approaches. Until now, the most popular systems follow the incremental paradigm due to its superior accuracy and robustness, while global approaches are drastically more scalable and efficient. With this work, we revisit the problem of global SfM and propose GLOMAP as a new general-purpose system that outperforms the state of the art in global SfM. In terms of accuracy and robustness, we achieve results on-par or superior to COLMAP, the most widely used incremental SfM, while being orders of magnitude faster. We share our system as an open-source implementation at {https://github.com/colmap/glomap}.
Auteurs: Linfei Pan, Dániel Baráth, Marc Pollefeys, Johannes L. Schönberger
Dernière mise à jour: 2024-09-22 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.20219
Source PDF: https://arxiv.org/pdf/2407.20219
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.