PIGEONを使った画像の位置特定の進歩
PIGEONは革新的な方法と幅広いデータソースを使って、画像の位置推測を改善するよ。
― 1 分で読む
写真がどこで撮られたかを見つけるのって難しいよね。人々は世界中のいろんな場所で写真を撮るし、その画像はたくさんの異なる場所を示しているんだ。私たちのプロジェクト「PIGEON」は、視覚的特徴をもとに画像の場所を推測するために先進技術を使って、これをもっと簡単にすることを目指してるよ。
画像のジオローカリゼーションの課題
画像の場所を特定する作業、つまり画像のジオローカリゼーションは、長い間厄介な問題だったんだ。一部のプロジェクトは進展を見せているけど、有名なランドマークのような特定のタイプの画像にしか上手く機能しないことが多いんだ。新しい場所や見たことない場所からの画像には苦労する。私たちの新しいシステムは、異なる技術を組み合わせて精度を向上させ、より多様な画像に対応できるようにしているよ。
PIGEONの仕組み
PIGEONはいくつかの革新的な方法を使って画像のジオロケーションの課題に取り組んでいるんだ:
ジオセルの作成: 世界を「ジオセル」と呼ばれるセクションに分けるんだ。これで地理的特徴に基づいて地域を整理できるようになるよ。
マルチタスクコントラスト事前学習: 関連するさまざまなタスクでシステムをトレーニングすることで、予測をより良くするための学習を助けているんだ。
推測の精緻化: 最初の推測の後、PIGEONは似た画像のクラスタと比較して予測を修正するよ。
モデルのトレーニング
私たちはPIGEONとPIGEOTTOの2つのモデルを開発したんだ。
PIGEONは、GeoGuessrというゲームのデータを使ってトレーニングされた。4枚の画像を同時に処理することで、実際の位置から25キロ以内に40%以上の正確さで場所を推測できるんだ。ライブテストでも多くの熟練プレイヤーを上回り、ゲームのトッププレイヤーの一人になったよ。
PIGEOTTOは、FlickrやWikipediaの画像を使ってトレーニングされた。このモデルは複数の画像ではなく、単一の画像で動作するんだ。さまざまなベンチマークテストで強力な結果を示し、これまでの記録を上回ったよ。
なぜこれが重要か
私たちの研究結果は、PIGEOTTOが今まで遭遇したことのない場所でもうまく一般化できる初めてのモデルであることを示している。このことは、グローバル規模でより正確な画像ジオロケーションシステムの可能性を広げるんだ。
PIGEONシステムの構造
PIGEONシステムは以下の構造を持っているよ:
ジオセルの作成: 行政境界や他の地理的特徴に基づいてジオセルを作成して、意味のあるものにしてるんだ。
事前学習: CLIPというモデルを使って、膨大なデータセットの画像とテキストでトレーニングされたんだ。特定のタスクのためにこのモデルを微調整してるよ。
位置予測: システムは画像がどのジオセルに属するかを予測して、その後関連する画像データに基づいてこの推測を修正するんだ。
ジオセルの重要性
ジオセルは私たちのシステムの動作にとって不可欠なんだ。世界を小さく管理しやすいセクションに分けることで、モデルが特定のエリアに集中できるようにしてる。最初はシンプルな長方形の形を使ってたけど、その後は異なる場所の独自の特徴を考慮したもっと洗練された方法を開発したよ。
補助データから学ぶ
パフォーマンスをさらに向上させるために、気候や人口密度のようなさまざまな補助データをモデルのトレーニングプロセスに統合してるんだ。これで画像の場所に関するより複雑な特徴を学ぶのを助けて、正確な予測をする能力を向上させてるよ。
結果とパフォーマンス
PIGEONは実験で素晴らしい結果を出した。多くのテストで、正しい位置から25キロ以内に入った割合がかなり高かった。熟練した人間プレイヤーとテストしたときも、常に彼らを上回って、現実のアプリケーションの効果を示しているんだ。
対照的に、PIGEOTTOもいくつかのベンチマークで既存のモデルを上回って、その堅牢性と信頼性を示したよ。
制限と考慮事項
私たちのシステムは良いパフォーマンスを発揮しているけど、まだ対処すべき課題がある。薄暗い条件で撮影された画像や、明確な特徴がない画像はモデルにとって難しいんだ。それに、画像ジオロケーション技術の悪用の可能性から倫理的な考慮も必要で、これらの問題を責任を持って対処する必要があると認識してるよ。
将来の方向性
私たちは、私たちの研究が画像ジオロケーション技術の進歩への道を開くと信じているんだ。将来の研究では、特に難しいケースの精度を改善することや、ナビゲーションや教育などのさまざまな分野での応用を探ることに焦点を当てるべきだと思ってるよ。
結論
私たちの研究は、さまざまな画像に対応できる効果的なジオロケーションシステムを作ることの重要性を強調している。PIGEONとPIGEOTTOは、この分野での精度と一般化の新しい基準を設定したんだ。技術が進歩するにつれて、私たちは画像ジオロケーションシステムが価値のある洞察を提供し、私たちの周りの世界の理解を深めるさらなる進展を期待しているよ。
タイトル: PIGEON: Predicting Image Geolocations
概要: Planet-scale image geolocalization remains a challenging problem due to the diversity of images originating from anywhere in the world. Although approaches based on vision transformers have made significant progress in geolocalization accuracy, success in prior literature is constrained to narrow distributions of images of landmarks, and performance has not generalized to unseen places. We present a new geolocalization system that combines semantic geocell creation, multi-task contrastive pretraining, and a novel loss function. Additionally, our work is the first to perform retrieval over location clusters for guess refinements. We train two models for evaluations on street-level data and general-purpose image geolocalization; the first model, PIGEON, is trained on data from the game of Geoguessr and is capable of placing over 40% of its guesses within 25 kilometers of the target location globally. We also develop a bot and deploy PIGEON in a blind experiment against humans, ranking in the top 0.01% of players. We further challenge one of the world's foremost professional Geoguessr players to a series of six matches with millions of viewers, winning all six games. Our second model, PIGEOTTO, differs in that it is trained on a dataset of images from Flickr and Wikipedia, achieving state-of-the-art results on a wide range of image geolocalization benchmarks, outperforming the previous SOTA by up to 7.7 percentage points on the city accuracy level and up to 38.8 percentage points on the country level. Our findings suggest that PIGEOTTO is the first image geolocalization model that effectively generalizes to unseen places and that our approach can pave the way for highly accurate, planet-scale image geolocalization systems. Our code is available on GitHub.
著者: Lukas Haas, Michal Skreta, Silas Alberti, Chelsea Finn
最終更新: 2024-05-28 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2307.05845
ソースPDF: https://arxiv.org/pdf/2307.05845
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://github.com/LukasHaas/PIGEON
- https://www.geoguessr.com/
- https://code.google.com/archive/p/s2-geometry-library
- https://www.youtube.com/watch?v=ts5lPDV--cU
- https://huggingface.co/openai/clip-vit-large-patch14-336
- https://geodata.ucdavis.edu/gadm/gadm4.1/gadm_410-levels.zip
- https://github.com/wmgeolab
- https://figshare.com/ndownloader/files/12407516
- https://www.usgs.gov/centers/eros/science/usgs-eros-archive-digital-elevation-shuttle-radar-topography-mission-srtm-1
- https://stacks.stanford.edu/file/druid:sg962yb7367/data.zip
- https://land.copernicus.eu/imagery-in-situ/eu-dem/eu-dem-v1.1/view
- https://jeodpp.jrc.ec.europa.eu/ftp/jrc-opendata/GHSL/GHS_POP_GLOBE_R2022A/GHS_POP_E2020_GLOBE_R2022A_54009_1000/V1-0/GHS_POP_E2020_GLOBE_R2022A_54009_1000_V1_0.zip
- https://www.worldclim.org/data/worldclim21.html
- https://www.worldstandards.eu/cars/list-of-left-driving-countries/
- https://fastapi.tiangolo.com/