Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung

LFM-3D: Eine neue Methode, um Objektbilder abzugleichen

Neue Methode verbessert die Zuordnung von Objekten aus verschiedenen Perspektiven mit 3D-Daten.

― 7 min Lesedauer


LFM-3D: VerbesserteLFM-3D: VerbesserteMerkmalsanpassung3D-Signalen.Objektzuordnung mithilfe vonInnovative Methode für bessere
Inhaltsverzeichnis

Matches zwischen verschiedenen Bildern des gleichen Objekts zu finden, ist wichtig, um zu verstehen, wie dieses Objekt in drei Dimensionen aussieht. Neueste Entwicklungen im Deep Learning haben Fortschritte in diesem Bereich gemacht, indem sie es Computern ermöglichen, Merkmale in Bildern zu identifizieren. Wenn Bilder jedoch aus grosser Entfernung aufgenommen werden, wird es schwierig für diese Systeme, gute Übereinstimmungen zu finden. Hier kommt unsere neue Methode, LFM-3D, ins Spiel.

Das Problem mit breiten Baselines

Wenn wir von breiten Baselines sprechen, meinen wir, dass die Bilder aus sehr unterschiedlichen Winkeln kommen, was es schwer macht, die gleichen Teile des Objekts in beiden Bildern zu sehen. Daher haben traditionelle Methoden Schwierigkeiten, Übereinstimmungen zu finden. Auf Deep Learning basierende Merkmalsmatcher haben Verbesserungen erzielt, scheitern jedoch immer noch unter diesen schwierigen Bedingungen. Mit Informationen über die 3D-Form des Objekts können wir den Matching-Prozess unterstützen.

Was ist LFM-3D?

LFM-3D ist ein neuer Ansatz, der 3D-Informationen mit Deep Learning-Methoden kombiniert, um das Merkmalsmatching zu verbessern. Wir verwenden fortschrittliche Modelle wie graphbasierte neuronale Netze, um sowohl 2D-Bildmerkmale als auch 3D-Signale zu verarbeiten. Es gibt zwei Arten von 3D-Signalen, die wir verwenden können: Normalisierte Objektkoordinaten (NOCS) und monokulare Tiefenschätzungen.

Nutzung von 3D-Informationen

Um die 3D-Signale optimal zu nutzen, müssen wir die Positionsinformationen richtig kodieren. Das ist wichtig, um die niederdimensionalen 3D-Daten mit den anderen Merkmalen zu integrieren, die wir haben. Wir haben festgestellt, dass unsere Methode eine signifikante Verbesserung der Übereinstimmungsgenauigkeit bietet, mit besserem Rückruf und Präzision im Vergleich zu Methoden, die nur auf 2D-Daten basieren.

Arten von 3D-Signalen

  1. Normalisierte Objektkoordinaten (NOCS):

    • NOCS hilft uns, verschiedene Ansichten eines Objekts einheitlich darzustellen.
    • Es liefert eine Karte von 3D-Koordinaten für jedes Pixel im Bild.
    • Das ermöglicht uns, Pixel in 2D-Bildern mit ihren entsprechenden Punkten in 3D zu verbinden.
  2. Monokulare Tiefenschätzungen (MDE):

    • MDE berechnet die Tiefe jedes Pixels in einem Einzelbild.
    • Es gibt uns eine Schätzung, wie weit jedes Pixel von der Kamera entfernt ist, was beim Matching hilft.
    • Obwohl es weniger genau ist als die Verwendung eines vollständigen 3D-Modells, kann es den Matching-Prozess dennoch verbessern.

Wie wir LFM-3D getestet haben

Wir haben Experimente durchgeführt, um zu sehen, wie gut LFM-3D auf verschiedenen Datensätzen abschneidet. Wir haben Bilder von Schuhen und Kameras aus verschiedenen Winkeln verwendet, sowohl in kontrollierten Umgebungen als auch in realen Szenarien. Die Ergebnisse zeigten klare Verbesserungen im Merkmalsmatching bei Verwendung unserer Methode im Vergleich zu traditionellen Ansätzen.

Verbesserungen im Merkmalsmatching

Unsere Methode übertraf frühere Techniken durch:

  • Eine Steigerung des Gesamt-Rückrufs um über 6 %.
  • Eine Erhöhung der Präzision um bis zu 28 % bei festem Rückrufniveau.
  • Eine weitere Verbesserung der Genauigkeit der relativen Positionierung für Bilder, die in der freien Natur aufgenommen wurden, um mehr als 8 %.

Rahmenwerk

Der LFM-3D-Ansatz integriert wertvolle Informationen aus 3D-Signalen in ein graphbasiertes neuronales Netzwerkmodell. Jedes lokale Merkmal aus dem Bild erhält seine 3D-Koordinate, was hilft, bessere Assoziationen zu bilden. Diese Kombination ist es, die LFM-3D strahlen lässt, während traditionelle Methoden kämpfen.

Verarbeitung von 3D-Signalen

Wir wenden bilaterale Interpolation an, um Vorhersagen für lokale Merkmale basierend auf ihrer 2D-Pixelposition zu erhalten. Dieser Schritt stellt sicher, dass jedes lokale Merkmal wertvolle Informationen über seine Position in 2D und 3D hat.

Training des Modells

Das Training von LFM-3D erfordert einen mehrstufigen Prozess, um seine Leistung zu verbessern. Zuerst trainieren wir das Modell an einer Vielzahl von Datensätzen, um ihm zu helfen, 2D-Zusammenhänge zu verstehen. Sobald es eine solide Grundlage hat, führen wir die 3D-Signale ein und feintunen das gesamte Modell, um sich an objektspezifische Daten anzupassen.

Verwendete Datensätze

  1. Google Scanned Objects (GSO):

    • Ein Datensatz von hochwertig gescannten 3D-Modellen, der zur Schulung der LFM-3D-Komponenten verwendet wird.
    • Wir konzentrierten uns auf die Kategorien „Schuhe“ und „Kameras“ und rendern Bilder aus verschiedenen Winkeln, um einen vielfältigen Trainingssatz zu erstellen.
  2. Objectron:

    • Ein Datensatz, der objektspezifische Videos mit breiter Sichtwinkelabdeckung für die Modellprüfung umfasst.
    • Trotz fehlender Tiefendaten bot er wertvolle reale Bilder zur Bewertung unserer Methode.

Ergebnisse und Leistung

Wir haben LFM-3D gegen verschiedene Basismethoden, einschliesslich traditioneller Techniken wie SIFT und neuerer Methoden wie SuperPoint in Kombination mit SuperGlue, bewertet. Unsere Ergebnisse zeigten konsistente Verbesserungen der Matching-Leistung, insbesondere in Fällen, in denen Objekte aus breiten Baselines betrachtet wurden.

Präzision und Rückruf

Wir haben genau darauf geachtet, wie gut unsere Methode in Bezug auf Präzision und Rückruf abgeschnitten hat. Die Fähigkeit von LFM-3D, mehr Übereinstimmungen vorzuschlagen und dabei hohe Genauigkeit zu wahren, war in unseren Experimenten offensichtlich. Die beeindruckenden Rückrufzahlen deuteten darauf hin, dass unsere Methode mehr korrekte Übereinstimmungen identifizieren konnte als ihre Vorgänger.

Relative Pose Schätzung

Eine entscheidende Aufgabe in der Computer Vision ist die Schätzung, wie Objekte relativ zueinander positioniert sind, bekannt als relative Pose-Schätzung. Unsere Experimente konzentrierten sich auf diese Aufgabe, um die realen Anwendungen von LFM-3D zu demonstrieren.

Wir berechneten die essentielle Matrix, die die Kamerapositionen mithilfe der von unserer Methode identifizierten Korrespondenzen verknüpft. Die Ergebnisse unterstrichen die Fähigkeit von LFM-3D, relative Rotationen genauer als nur 2D-Methoden zu rekonstruieren.

Qualitative Ergebnisse

Die visuellen Ergebnisse aus unseren Experimenten gaben weitere Einblicke in die Effektivität von LFM-3D. Wir verglichen unsere Methode mit anderen Techniken und illustrierten, wie unser Modell in schwierigen Fällen, in denen andere scheiterten, korrekte Übereinstimmungen finden konnte.

Einschränkungen

Obwohl LFM-3D insgesamt gut abgeschnitten hat, stiessen wir auf einige Herausforderungen. Die Effektivität der Methode variierte je nach Art des verwendeten 3D-Signals. Bei Objekten ohne ausreichend 3D-Daten führte die Abhängigkeit von monokularen Tiefenschätzungen zu weniger zuverlässigen Übereinstimmungen.

Irreguläre Formen und das Fehlen markanter Merkmale stellten ebenfalls Schwierigkeiten dar, was zeigt, dass selbst fortschrittliche Methoden ihre Grenzen haben. Das Modell hatte Probleme mit merkmalslosen Objekten und solchen, die nicht gut in den Trainingsdaten repräsentiert waren.

Fazit

Zusammenfassend stellt LFM-3D einen bedeutenden Fortschritt im Merkmalsmatching dar, indem 3D-Informationen mit Deep Learning-Techniken kombiniert werden. Unsere Experimente haben gezeigt, dass die Einbeziehung von 3D-Signalen den Matching-Prozess, insbesondere in herausfordernden breiten Baselineszenarien, verbessert.

Wir sahen Verbesserungen sowohl in der Präzision als auch im Rückruf sowie eine bessere Genauigkeit der relativen Pose-Schätzung. Diese Ergebnisse unterstreichen die Bedeutung der Nutzung von 3D-Daten, um die Art und Weise zu verbessern, wie wir Bilder abgleichen und letztendlich die Geometrie von Objekten verstehen.

Unsere Forschung hebt das anhaltende Potenzial hervor, 3D-Informationen in Aufgaben der Computer Vision zu integrieren, und wir glauben, dass in diesem Bereich noch viel zu entdecken ist. LFM-3D legt eine Grundlage für zukünftige Arbeiten, die diese Vorteile nutzen könnten, um noch komplexere Herausforderungen im Bereich des Bildabgleichs und -verständnisses anzugehen.

Durch die Entwicklung und das Testen von LFM-3D haben wir gezeigt, dass es möglich ist, traditionelle Merkmalsmatching-Techniken mit neuen Erkenntnissen aus 3D-Informationen zu verbessern und so Anwendungen in verschiedenen Bereichen, von Augmented Reality bis objektbasierter Erkennung in unterschiedlichen Umgebungen, zu ermöglichen.

Wenn wir in die Zukunft blicken, wird die Integration von 3D-Signalen in die Computer Vision wahrscheinlich zu noch revolutionäreren Veränderungen in der Art und Weise führen, wie Maschinen visuelle Informationen wahrnehmen und verarbeiten. Die Möglichkeiten sind riesig, und wir sind gespannt, wohin diese Forschung als Nächstes führt.

Originalquelle

Titel: LFM-3D: Learnable Feature Matching Across Wide Baselines Using 3D Signals

Zusammenfassung: Finding localized correspondences across different images of the same object is crucial to understand its geometry. In recent years, this problem has seen remarkable progress with the advent of deep learning-based local image features and learnable matchers. Still, learnable matchers often underperform when there exists only small regions of co-visibility between image pairs (i.e. wide camera baselines). To address this problem, we leverage recent progress in coarse single-view geometry estimation methods. We propose LFM-3D, a Learnable Feature Matching framework that uses models based on graph neural networks and enhances their capabilities by integrating noisy, estimated 3D signals to boost correspondence estimation. When integrating 3D signals into the matcher model, we show that a suitable positional encoding is critical to effectively make use of the low-dimensional 3D information. We experiment with two different 3D signals - normalized object coordinates and monocular depth estimates - and evaluate our method on large-scale (synthetic and real) datasets containing object-centric image pairs across wide baselines. We observe strong feature matching improvements compared to 2D-only methods, with up to +6% total recall and +28% precision at fixed recall. Additionally, we demonstrate that the resulting improved correspondences lead to much higher relative posing accuracy for in-the-wild image pairs - up to 8.6% compared to the 2D-only approach.

Autoren: Arjun Karpur, Guilherme Perrotta, Ricardo Martin-Brualla, Howard Zhou, André Araujo

Letzte Aktualisierung: 2024-01-30 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2303.12779

Quell-PDF: https://arxiv.org/pdf/2303.12779

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel