Fortschritte in der Bildgeolokalisierung mit PIGEON
PIGEON verbessert das Raten von Bildstandorten mit innovativen Methoden und breiteren Datenquellen.
― 4 min Lesedauer
Inhaltsverzeichnis
Herauszufinden, wo ein Foto gemacht wurde, kann echt schwierig sein. Die Leute knipsen Bilder überall auf der Welt, und die zeigen ganz unterschiedliche Orte. Unser Projekt, PIGEON genannt, hat sich zum Ziel gesetzt, das einfacher zu machen, indem wir mit moderner Technologie versuchen, den Standort von Bildern anhand ihrer visuellen Merkmale zu erraten.
Die Herausforderung der Bild-Geolokalisierung
Die Aufgabe, den Standort eines Bildes zu bestimmen, bekannt als Bild-Geolokalisierung, ist seit langem ein kniffliges Problem. Auch wenn einige Projekte Fortschritte gemacht haben, funktionieren sie oft nur gut mit bestimmten Bildtypen, wie beispielsweise berühmten Wahrzeichen. Bei Bildern aus neuen oder unbekannten Orten haben sie Schwierigkeiten. Unser neues System kombiniert verschiedene Techniken, um die Genauigkeit zu verbessern und eine breitere Palette an Bildern zu berücksichtigen.
So funktioniert PIGEON
PIGEON nutzt mehrere innovative Methoden, um die Herausforderung der Bild-Geolokalisierung anzugehen:
Geocells erstellen: Wir teilen die Welt in Abschnitte, die "Geocells" genannt werden. So können wir Bereiche basierend auf ihren geografischen Merkmalen organisieren.
Multi-Task Contrastive Pretraining: Wir bereiten unser System vor, indem wir es auf verschiedenen verwandten Aufgaben trainieren. Das hilft dem System, bessere Vorhersagen zu treffen.
Verschliffen von Vermutungen: Nach der ersten Schätzung verfeinert PIGEON seine Vorhersagen, indem es sie mit Clustern ähnlicher Bilder vergleicht.
Modelltraining
Wir haben zwei Modelle entwickelt: PIGEON und PIGEOTTO.
PIGEON wurde mit Daten aus dem Spiel GeoGuessr trainiert. Es verarbeitet Gruppen von vier Bildern gleichzeitig, was ihm erlaubt, Standorte mit beeindruckender Genauigkeit zu erraten – über 40 % seiner Vermutungen liegen innerhalb von 25 Kilometern vom echten Standort. Es hat sogar viele versierte menschliche Spieler in Live-Tests überholt und gehört zu den besten Spielern im Spiel.
PIGEOTTO hingegen wurde mit Bildern von Flickr und Wikipedia trainiert. Dieses Modell arbeitet mit Einzelfotos anstatt mit mehreren. Es zeigte starke Ergebnisse bei verschiedenen Benchmark-Tests und übertraf frühere Rekorde in der Genauigkeit.
Warum das wichtig ist
Unsere Ergebnisse zeigen, dass PIGEOTTO das erste Modell ist, das sich gut auf Standorte verallgemeinern kann, die es noch nie zuvor gesehen hat. Das eröffnet Möglichkeiten für genauere Bild-Geolokalisierungssysteme weltweit.
Aufbau des PIGEON-Systems
Das PIGEON-System hat folgende Struktur:
Geocell-Erstellung: Wir erstellen Geocells basierend auf administrativen Grenzen und anderen geografischen Merkmalen, um sicherzustellen, dass sie semantisch sinnvoll sind.
Pretraining: Wir nutzen ein Modell namens CLIP, das auf einem riesigen Datensatz von Bildern und Texten trainiert wurde. Wir passen dieses Modell für unsere spezifische Aufgabe an, indem wir zusätzliche Aufgaben hinzufügen, damit es bessere Repräsentationen der Bilder lernen kann.
Standortvorhersage: Das System sagt vorher, zu welchem Geocell ein Bild gehört, und verfeinert dann diese Vermutung basierend auf verwandten Bilddaten.
Die Bedeutung von Geocells
Geocells sind entscheidend dafür, wie unser System funktioniert. Indem wir die Welt in kleinere, handhabbare Abschnitte aufteilen, helfen wir dem Modell, sich auf bestimmte Bereiche zu konzentrieren. Anfangs haben wir einfache rechteckige Formen verwendet, aber später haben wir eine ausgeklügeltere Methode entwickelt, die die einzigartigen Merkmale verschiedener Orte berücksichtigt.
Lernen aus zusätzlichen Daten
Um die Leistung weiter zu verbessern, integrieren wir verschiedene Arten von Zusatzdaten – wie Klima und Bevölkerungsdichte – in den Trainingsprozess unseres Modells. Das hilft dem Modell, komplexere Merkmale über die Standorte der Bilder zu lernen, sodass es genauere Vorhersagen machen kann.
Ergebnisse und Leistung
PIGEON erzielte in Experimenten aussergewöhnliche Ergebnisse. In zahlreichen Tests lag es in einem signifikanten Prozentsatz der Fälle innerhalb von 25 Kilometern vom richtigen Standort. Wenn es gegen versierte menschliche Spieler getestet wurde, hat es sie ständig übertroffen und seine Effektivität in realen Anwendungen gezeigt.
Im Gegensatz dazu übertraf PIGEOTTO auch bestehende Modelle bei mehreren Benchmarks und zeigte seine Robustheit und Zuverlässigkeit.
Einschränkungen und Überlegungen
Obwohl unser System gut funktioniert, gibt es noch Herausforderungen zu bewältigen. Bilder, die unter schlechten Lichtverhältnissen aufgenommen wurden oder keine klaren Merkmale aufweisen, bleiben für das Modell schwierig zu handhaben. Ausserdem ergeben sich ethische Überlegungen aus dem möglichen Missbrauch der Bild-Geolokalisierungstechnologie, und wir erkennen die Notwendigkeit, diese Probleme verantwortungsbewusst anzugehen.
Zukünftige Richtungen
Wir glauben, dass unsere Arbeit den Weg für Fortschritte in der Bild-Geolokalisierungstechnologie ebnet. Zukünftige Forschungen sollten sich darauf konzentrieren, die Genauigkeit des Systems zu verbessern, insbesondere bei schwierigen Fällen, und ihre Anwendungen in verschiedenen Bereichen wie Navigation und Bildung zu erkunden.
Fazit
Unsere Arbeit hebt die Bedeutung hervor, effektive Geolokalisierungssysteme zu schaffen, die eine breite Palette von Bildern verarbeiten können. PIGEON und PIGEOTTO setzen einen neuen Standard für Genauigkeit und Verallgemeinerung in diesem Bereich. Wenn die Technologie weiter voranschreitet, hoffen wir, noch mehr Fortschritte bei Bild-Geolokalisierungssystemen zu sehen, die wertvolle Einblicke bieten und unser Verständnis der Welt um uns herum verbessern.
Titel: PIGEON: Predicting Image Geolocations
Zusammenfassung: Planet-scale image geolocalization remains a challenging problem due to the diversity of images originating from anywhere in the world. Although approaches based on vision transformers have made significant progress in geolocalization accuracy, success in prior literature is constrained to narrow distributions of images of landmarks, and performance has not generalized to unseen places. We present a new geolocalization system that combines semantic geocell creation, multi-task contrastive pretraining, and a novel loss function. Additionally, our work is the first to perform retrieval over location clusters for guess refinements. We train two models for evaluations on street-level data and general-purpose image geolocalization; the first model, PIGEON, is trained on data from the game of Geoguessr and is capable of placing over 40% of its guesses within 25 kilometers of the target location globally. We also develop a bot and deploy PIGEON in a blind experiment against humans, ranking in the top 0.01% of players. We further challenge one of the world's foremost professional Geoguessr players to a series of six matches with millions of viewers, winning all six games. Our second model, PIGEOTTO, differs in that it is trained on a dataset of images from Flickr and Wikipedia, achieving state-of-the-art results on a wide range of image geolocalization benchmarks, outperforming the previous SOTA by up to 7.7 percentage points on the city accuracy level and up to 38.8 percentage points on the country level. Our findings suggest that PIGEOTTO is the first image geolocalization model that effectively generalizes to unseen places and that our approach can pave the way for highly accurate, planet-scale image geolocalization systems. Our code is available on GitHub.
Autoren: Lukas Haas, Michal Skreta, Silas Alberti, Chelsea Finn
Letzte Aktualisierung: 2024-05-28 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2307.05845
Quell-PDF: https://arxiv.org/pdf/2307.05845
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://github.com/LukasHaas/PIGEON
- https://www.geoguessr.com/
- https://code.google.com/archive/p/s2-geometry-library
- https://www.youtube.com/watch?v=ts5lPDV--cU
- https://huggingface.co/openai/clip-vit-large-patch14-336
- https://geodata.ucdavis.edu/gadm/gadm4.1/gadm_410-levels.zip
- https://github.com/wmgeolab
- https://figshare.com/ndownloader/files/12407516
- https://www.usgs.gov/centers/eros/science/usgs-eros-archive-digital-elevation-shuttle-radar-topography-mission-srtm-1
- https://stacks.stanford.edu/file/druid:sg962yb7367/data.zip
- https://land.copernicus.eu/imagery-in-situ/eu-dem/eu-dem-v1.1/view
- https://jeodpp.jrc.ec.europa.eu/ftp/jrc-opendata/GHSL/GHS_POP_GLOBE_R2022A/GHS_POP_E2020_GLOBE_R2022A_54009_1000/V1-0/GHS_POP_E2020_GLOBE_R2022A_54009_1000_V1_0.zip
- https://www.worldclim.org/data/worldclim21.html
- https://www.worldstandards.eu/cars/list-of-left-driving-countries/
- https://fastapi.tiangolo.com/