Avanzamenti nella geolocalizzazione delle immagini con PIGEON
PIGEON migliora la stima della posizione delle immagini usando metodi innovativi e fonti di dati più ampie.
― 4 leggere min
Scoprire dove è stata scattata una foto può essere complicato. La gente scatta immagini in tutto il mondo, e queste foto mostrano posti diversi. Il nostro progetto, chiamato PIGEON, punta a rendere tutto questo più semplice usando tecnologie avanzate per indovinare la posizione delle immagini basandosi sulle loro caratteristiche visive.
La Sfida della Geolocalizzazione delle Immagini
Determinare dove si trova un’immagine, noto come geolocalizzazione delle immagini, è un problema difficile da un sacco di tempo. Anche se alcuni progetti hanno fatto progressi, spesso funzionano solo con tipi specifici di immagini, tipo i monumenti famosi. Faticano con le immagini di posti nuovi o mai visti. Il nostro nuovo sistema combina diverse tecniche per migliorare la precisione e gestire una varietà più ampia di immagini.
Come Funziona PIGEON
PIGEON usa diversi metodi innovativi per affrontare la sfida della geolocalizzazione delle immagini:
Creazione di Geocell: Dividiamo il mondo in sezioni chiamate "geocell". Questo ci aiuta a organizzare le aree in base alle loro caratteristiche geografiche.
Pretraining Contrastivo Multi-Task: Prepariamo il nostro sistema addestrandolo su vari compiti correlati. Questo aiuta il sistema a fare previsioni migliori.
Raffinamento delle Previsioni: Dopo il primo indovinare, PIGEON affina le sue previsioni confrontandole con gruppi di immagini simili.
Addestramento del Modello
Abbiamo sviluppato due modelli: PIGEON e PIGEOTTO.
PIGEON è stato addestrato usando dati dal gioco GeoGuessr. Elabora gruppi di quattro immagini insieme, permettendogli di indovinare le posizioni con una precisione impressionante: oltre il 40% dei suoi indovinelli è entro 25 chilometri dalla posizione reale. Ha persino superato molti giocatori umani esperti in prove dal vivo, piazzandosi tra i migliori nel gioco.
PIGEOTTO, d'altro canto, è stato addestrato su immagini di Flickr e Wikipedia. Questo modello lavora con immagini singole piuttosto che con più immagini. Ha mostrato risultati forti in vari test di benchmark, superando i record precedenti in precisione.
Perché È Importante
I nostri risultati mostrano che PIGEOTTO è il primo modello che può generalizzare bene a luoghi che non ha mai incontrato prima. Questo apre opportunità per sistemi di geolocalizzazione delle immagini più accurati su scala globale.
Struttura del Sistema PIGEON
Il sistema PIGEON ha la seguente struttura:
Creazione di Geocell: Creiamo geocell basate su confini amministrativi e altre caratteristiche geografiche, assicurandoci che siano semanticamente significative.
Pretraining: Usiamo un modello chiamato CLIP, che è stato addestrato su un vasto dataset di immagini e testo. Raffiniamo questo modello per il nostro compito specifico aggiungendo compiti extra, permettendogli di apprendere rappresentazioni migliori delle immagini.
Predizione della Posizione: Il sistema prevede a quale geocell appartiene un'immagine e poi affina questa previsione basandosi su dati di immagini correlate.
L'Importanza delle Geocell
Le geocell sono fondamentali per il funzionamento del nostro sistema. Suddividendo il mondo in sezioni più piccole e gestibili, aiutiamo il modello a concentrarsi su aree specifiche. Inizialmente usavamo forme rettangolari semplici, ma successivamente abbiamo sviluppato un metodo più sofisticato che considera le caratteristiche uniche di diverse località.
Apprendimento da Dati Ausiliari
Per migliorare ulteriormente le prestazioni, integriamo vari tipi di dati ausiliari-come clima e densità di popolazione-nel processo di addestramento del nostro modello. Questo aiuta il modello ad apprendere caratteristiche più complesse riguardo le posizioni delle immagini, migliorando la sua capacità di fare previsioni accurate.
Risultati e Prestazioni
PIGEON ha ottenuto risultati eccezionali negli esperimenti. In numerosi test, è arrivato entro 25 chilometri dalla posizione corretta in una percentuale significativa di casi. Messo alla prova contro giocatori umani esperti, li ha costantemente superati, dimostrando la sua efficacia nelle applicazioni reali.
In contrasto, PIGEOTTO ha anche superato i modelli esistenti in diversi benchmark, dimostrando la sua robustezza e affidabilità.
Limitazioni e Considerazioni
Anche se il nostro sistema funziona bene, ci sono ancora sfide da affrontare. Le immagini scattate in condizioni di scarsa illuminazione, o quelle che mancano di caratteristiche chiare, rimangono difficili da gestire per il modello. Inoltre, ci sono considerazioni etiche riguardo al potenziale uso improprio della tecnologia di geolocalizzazione delle immagini, e riconosciamo la necessità di affrontare queste questioni in modo responsabile.
Direzioni Future
Crediamo che il nostro lavoro apra la strada a progressi nella tecnologia di geolocalizzazione delle immagini. La ricerca futura dovrebbe concentrarsi sul miglioramento della precisione del sistema, specialmente per i casi difficili, ed esplorare le sue applicazioni in vari campi, come navigazione ed educazione.
Conclusione
Il nostro lavoro sottolinea l'importanza di creare sistemi di geolocalizzazione efficaci che possano gestire una vasta gamma di immagini. PIGEON e PIGEOTTO stabiliscono un nuovo standard per la precisione e la generalizzazione in questo campo. Con l'avanzare della tecnologia, speriamo di vedere ulteriori progressi nei sistemi di geolocalizzazione delle immagini che possono fornire intuizioni preziose e migliorare la nostra comprensione del mondo che ci circonda.
Titolo: PIGEON: Predicting Image Geolocations
Estratto: Planet-scale image geolocalization remains a challenging problem due to the diversity of images originating from anywhere in the world. Although approaches based on vision transformers have made significant progress in geolocalization accuracy, success in prior literature is constrained to narrow distributions of images of landmarks, and performance has not generalized to unseen places. We present a new geolocalization system that combines semantic geocell creation, multi-task contrastive pretraining, and a novel loss function. Additionally, our work is the first to perform retrieval over location clusters for guess refinements. We train two models for evaluations on street-level data and general-purpose image geolocalization; the first model, PIGEON, is trained on data from the game of Geoguessr and is capable of placing over 40% of its guesses within 25 kilometers of the target location globally. We also develop a bot and deploy PIGEON in a blind experiment against humans, ranking in the top 0.01% of players. We further challenge one of the world's foremost professional Geoguessr players to a series of six matches with millions of viewers, winning all six games. Our second model, PIGEOTTO, differs in that it is trained on a dataset of images from Flickr and Wikipedia, achieving state-of-the-art results on a wide range of image geolocalization benchmarks, outperforming the previous SOTA by up to 7.7 percentage points on the city accuracy level and up to 38.8 percentage points on the country level. Our findings suggest that PIGEOTTO is the first image geolocalization model that effectively generalizes to unseen places and that our approach can pave the way for highly accurate, planet-scale image geolocalization systems. Our code is available on GitHub.
Autori: Lukas Haas, Michal Skreta, Silas Alberti, Chelsea Finn
Ultimo aggiornamento: 2024-05-28 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2307.05845
Fonte PDF: https://arxiv.org/pdf/2307.05845
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://github.com/LukasHaas/PIGEON
- https://www.geoguessr.com/
- https://code.google.com/archive/p/s2-geometry-library
- https://www.youtube.com/watch?v=ts5lPDV--cU
- https://huggingface.co/openai/clip-vit-large-patch14-336
- https://geodata.ucdavis.edu/gadm/gadm4.1/gadm_410-levels.zip
- https://github.com/wmgeolab
- https://figshare.com/ndownloader/files/12407516
- https://www.usgs.gov/centers/eros/science/usgs-eros-archive-digital-elevation-shuttle-radar-topography-mission-srtm-1
- https://stacks.stanford.edu/file/druid:sg962yb7367/data.zip
- https://land.copernicus.eu/imagery-in-situ/eu-dem/eu-dem-v1.1/view
- https://jeodpp.jrc.ec.europa.eu/ftp/jrc-opendata/GHSL/GHS_POP_GLOBE_R2022A/GHS_POP_E2020_GLOBE_R2022A_54009_1000/V1-0/GHS_POP_E2020_GLOBE_R2022A_54009_1000_V1_0.zip
- https://www.worldclim.org/data/worldclim21.html
- https://www.worldstandards.eu/cars/list-of-left-driving-countries/
- https://fastapi.tiangolo.com/