Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung

Einführung von SANPO: Ein neuer Datensatz für das Verständnis von Szenen

Das SANPO-Dataset kombiniert echte und synthetische Videos, um die Navigationsforschung voranzubringen.

― 6 min Lesedauer


SANPO: Pionierarbeit beiSANPO: Pionierarbeit beiegocentrischen Datenrevolutioniert.Szenen und NavigationssystemenEin Datensatz, der das Verständnis von
Inhaltsverzeichnis

SANPO ist eine grosse Sammlung von Videos, die sich darauf konzentriert, wie Menschen Szenen aus ihrer Perspektive verstehen. Dieses Dataset wurde entwickelt, um Forschern zu helfen, bessere Systeme für die Navigation zu entwickeln, besonders bei Aufgaben wie der Unterstützung von sehbehinderten Menschen. Es enthält Aufnahmen aus realen Umgebungen und synthetischen Umgebungen, die so gestaltet sind, dass sie den Bedingungen im echten Leben ähneln.

Was macht SANPO besonders?

SANPO hebt sich ab, weil es reale und computergenerierte Videodaten kombiniert. Die realen Daten stammen von zwei Kameras, die von Freiwilligen getragen werden und verschiedene Blickwinkel auf verschiedene Aussenaufnahmen bieten. Die synthetischen Daten werden in einem virtuellen Raum erstellt, sind aber so gestaltet, dass sie so nah wie möglich an realen Szenarien sind. Diese Kombination ermöglicht es Forschern, zu studieren, wie Menschen Umgebungen wahrnehmen und effektiv navigieren.

Datenbeschaffungsprozess

Die Daten für SANPO wurden von Freiwilligen gesammelt, die spezielle Kameras trugen. Diese Kameras zeichneten Videoaufnahmen auf, während sich die Personen durch verschiedene Umgebungen bewegten, wie Stadtstrassen, Parks und andere Aussenbereiche. Die Freiwilligen durchliefen auch verschiedene Wetterbedingungen und Tageszeiten, um eine breite Palette von Szenen zu gewährleisten. Ziel war es, vielfältige Daten zu sammeln, einschliesslich Bereiche mit hohem Menschen- und Fahrzeugverkehr sowie Hindernisse, die die Navigation beeinflussen könnten.

Arten der enthaltenen Daten

Das SANPO-Dataset umfasst mehrere Arten von Informationen:

  1. Stereo-Video: Das Dataset besteht aus Videos, die gleichzeitig von zwei Kameras aufgenommen wurden und eine dreidimensionale Ansicht bieten.

  2. Tiefenannotationen: Jedes Video ist mit Daten kombiniert, die zeigen, wie weit verschiedene Objekte von der Kamera entfernt sind, was beim Verständnis von Entfernungen in den Szenen hilft.

  3. Semantische Segmentierung: Dabei werden die Videorahmen in verschiedene Teile unterteilt, basierend darauf, was sichtbar ist (z. B. Menschen, Fahrzeuge, Hindernisse) und diese Teile werden markiert.

  4. Odometriedaten: Dies gibt an, wo sich die Kamera und die Person im Laufe der Zeit befinden, was mehr Kontext zu den Daten hinzufügt.

SANPO umfasst sowohl reale als auch synthetische Szenen. Die realen Szenen sind detailreich, können aber aufgrund von Faktoren wie Kamerabewegung oder Beleuchtung Unvollkommenheiten aufweisen. Auf der anderen Seite bieten synthetische Szenen perfekte Daten, die bei der effektiven Modellschulung helfen können.

Anwendungsfälle für SANPO

Dieses Dataset hat zahlreiche Anwendungen. Es kann helfen, Technologien für zu entwickeln:

  • Robotik: Verbesserung der Art und Weise, wie Roboter menschliche Umgebungen verstehen und navigieren.

  • Autonome Fahrzeuge: Hilfe für Autos, bessere Entscheidungen zu treffen, wenn sie Menschen und Hindernisse erkennen.

  • Erweiterte Realität: Ermöglichen, dass Geräte die umgebende Welt besser für die Nutzer interpretieren.

  • Barrierefreiheit: Erstellung von Systemen, die sehbehinderten Menschen helfen, indem sie Echtzeit-Feedback über ihre Umgebung geben.

Durch den Fokus auf menschzentrierte Datensammlung und Annotation adressiert SANPO eine Lücke, die in Datensätzen zur Szenenverständnis existiert hat.

Herausforderungen bei egocentrischen Daten

Videos, die aus menschlicher Perspektive aufgenommen wurden, stellen einzigartige Herausforderungen dar. Die Blickwinkel können unkonventionell sein, was zu Schwierigkeiten bei der Interpretation der Informationen führen kann. Ausserdem können sich Szenen schnell ändern, da sie durch Interaktionen mit anderen Menschen und Objekten beeinflusst werden. Diese Faktoren machen es notwendig, ein robustes Dataset wie SANPO zu haben, um Modelle zu trainieren, die mit solcher Variabilität umgehen können.

Die Zusammensetzung des Datasets

SANPO enthält insgesamt über 700 Sitzungen von aufgezeichneten Videos. Jede Sitzung ist ungefähr 30 Sekunden lang und repräsentiert verschiedene Bedingungen. Das Dataset hat eine beträchtliche Anzahl an Tiefenkarten und Segmentierungs-Masken, wodurch es zu einer der grössten und detailliertesten Ressourcen für egocentrisches Szenenverständnis gehört.

Für reale Sitzungen gibt es mehr als 975.000 Segmentierungs-Masken, und für die synthetischen Sitzungen sind es über 113.000. Die Segmentierung umfasst verschiedene Kategorien wie Menschen, Fahrzeuge, Hindernisse und verschiedene Elemente der Umgebung.

Annotationstechniken

Um qualitativ hochwertige Daten zu gewährleisten, werden die Annotationen des Datasets mit einem systematischen Ansatz durchgeführt. Menschen annotieren spezifische Frames, und diese Annotationen werden dann verwendet, um Informationen für andere Frames im selben Video abzuleiten. Das bedeutet, dass jeder annotierte Frame hilft, die Qualität der Daten zu verbessern und die Analyse zu erleichtern.

Das Dataset ist so strukturiert, dass es verschiedene Elemente in der Szene als „Dinge“ (wie Fussgänger und Fahrzeuge) und „Sachen“ (wie den Himmel und Strassen) identifiziert. Diese Unterscheidung ist wichtig für Aufgaben wie Objekterkennung und Szenenklassifikation.

Vergleich von SANPO mit anderen Datasets

Es wurden mehrere andere Datasets für Aufgaben wie autonomes Fahren und Objekterkennung erstellt. Die meisten davon beinhalten jedoch nicht das Mass an Detailtreue, das in SANPO vorhanden ist, besonders in Bezug auf menschliche Perspektiven. Viele bestehende Datasets konzentrieren sich hauptsächlich auf Fahrzeuge oder strukturierte Umgebungen, während SANPO die Unvorhersehbarkeit und Komplexität alltäglicher menschlicher Interaktionen betont.

Während Datasets wie SCAND und Ego4D egocentrische Perspektiven erfassen, fehlt ihnen oft die umfassende Annotation, die für die semantische Segmentierung benötigt wird. SANPO geht darauf ein, indem es sowohl Tiefen- als auch Segmentierungsdaten bereitstellt, was es zu einer wertvollen Ressource für vielfältige Forschungsanwendungen macht.

Benchmarks und Bewertungen

Um Forschern zu helfen, die Effektivität verschiedener Modelle, die das SANPO-Dataset verwenden, zu bewerten, wurden Benchmarks festgelegt. Diese Benchmarks ermöglichen es ihnen, zu beurteilen, wie gut bestehende Modelle mit den Herausforderungen umgehen, die SANPO mit sich bringt. Die Bewertung umfasst Tests zur Tiefenschätzung und semantischen Segmentierung, wobei Metriken zur Quantifizierung der Leistung verwendet werden.

Die Ergebnisse zeigen, dass viele bestehende Modelle bei Aufgaben mit SANPO Schwierigkeiten haben, was auf die herausfordernde Natur des Datasets hinweist. Das ist vorteilhaft, da es Fortschritte in Technologien anregt, die mit den Komplexitäten der menschlichen Navigation umgehen können.

Zukünftige Richtungen

Die Einführung von SANPO soll weitere Forschungen in verschiedenen Anwendungen inspirieren. Forscher können dieses Dataset nutzen, um ihre Modelle zur Navigation in realen Szenarien effektiver zu verfeinern. Dies wird helfen, die einzigartigen Herausforderungen zu adressieren, die die egocentrische Navigation mit sich bringt.

Durch die Betonung der Bedeutung menschlicher Perspektiven beim Verständnis von Umgebungen zielt SANPO darauf ab, die Grenzen von Technologien zu erweitern, die darauf abzielen, das Leben der Menschen zu verbessern. Ob durch Robotik, erweiterte Realität oder Bemühungen um Barrierefreiheit, dieses Dataset hat das Potenzial, in mehreren Bereichen einen bedeutenden Einfluss zu haben.

Fazit

Zusammenfassend lässt sich sagen, dass SANPO ein innovatives Dataset ist, das dazu dient, unser Verständnis darüber, wie Menschen ihre Umgebung wahrnehmen und mit ihr interagieren, zu verbessern. Es kombiniert reale Videos mit synthetischen Daten, um eine reiche Ressource für die Forschungsgemeinschaft zu schaffen. Durch den Fokus auf das menschliche Erlebnis hat SANPO das Potenzial, die Entwicklung effektiverer Navigationssysteme voranzutreiben und unser Gesamtverständnis von Szenenverständnis zu erweitern.

Originalquelle

Titel: SANPO: A Scene Understanding, Accessibility and Human Navigation Dataset

Zusammenfassung: Vision is essential for human navigation. The World Health Organization (WHO) estimates that 43.3 million people were blind in 2020, and this number is projected to reach 61 million by 2050. Modern scene understanding models could empower these people by assisting them with navigation, obstacle avoidance and visual recognition capabilities. The research community needs high quality datasets for both training and evaluation to build these systems. While datasets for autonomous vehicles are abundant, there is a critical gap in datasets tailored for outdoor human navigation. This gap poses a major obstacle to the development of computer vision based Assistive Technologies. To overcome this obstacle, we present SANPO, a large-scale egocentric video dataset designed for dense prediction in outdoor human navigation environments. SANPO contains 701 stereo videos of 30+ seconds captured in diverse real-world outdoor environments across four geographic locations in the USA. Every frame has a high resolution depth map and 112K frames were annotated with temporally consistent dense video panoptic segmentation labels. The dataset also includes 1961 high-quality synthetic videos with pixel accurate depth and panoptic segmentation annotations to balance the noisy real world annotations with the high precision synthetic annotations. SANPO is already publicly available and is being used by mobile applications like Project Guideline to train mobile models that help low-vision users go running outdoors independently. To preserve anonymization during peer review, we will provide a link to our dataset upon acceptance. SANPO is available here: https://google-research-datasets.github.io/sanpo_dataset/

Autoren: Sagar M. Waghmare, Kimberly Wilber, Dave Hawkey, Xuan Yang, Matthew Wilson, Stephanie Debats, Cattalyya Nuengsigkapian, Astuti Sharma, Lars Pandikow, Huisheng Wang, Hartwig Adam, Mikhail Sirotenko

Letzte Aktualisierung: 2024-12-19 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2309.12172

Quell-PDF: https://arxiv.org/pdf/2309.12172

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel