Neue Methode geht Herausforderungen bei der Personenwiedererkennung an
Ein neuer Ansatz zur Verbesserung der Genauigkeit bei der Identifizierung von verdeckten Personen.
― 6 min Lesedauer
Inhaltsverzeichnis
- Was ist Keypoint Promptable ReID?
- Warum ist Multi-Person Ambiguity eine Herausforderung?
- Die Bedeutung von Datensätzen
- Wie funktioniert KPR?
- Vorteile von KPR gegenüber früheren Methoden
- Bewertung der KPR-Performance
- Die Datensatz-Herausforderung
- Architektur von KPR
- Trainings- und Inferenzprozess
- Anwendungsgebiete von KPR in der realen Welt
- Fazit
- Originalquelle
- Referenz Links
Im Bereich der Computer Vision gibt's eine knifflige Aufgabe, die nennt sich "Personen-Re-Identifikation" (ReID). Dabei geht's darum, eine bestimmte Person in einer Sammlung von Bildern zu finden, selbst wenn die Person teilweise versteckt oder blockiert ist. Das wird als "Okklusion" bezeichnet. Während viele Forscher untersucht haben, wie man mit Okklusionen durch Objekte umgeht, haben sich weniger mit den Fällen beschäftigt, in denen mehrere Personen sich gegenseitig blockieren.
Dieser Artikel stellt eine neue Methode vor, um okkludierte Personen-Re-Identifikation anzugehen, die sich mit einem spezifischen Problem namens Multi-Person Ambiguity (MPA) beschäftigt. Das passiert, wenn mehrere Personen zusammen in einem Bild erscheinen, was es schwierig macht, zu erkennen, welche Person das Ziel ist. Die vorgeschlagene Lösung beinhaltet, Schlüsselstellen hinzuzufügen, um klarzumachen, auf welche Person man sich konzentrieren soll.
Was ist Keypoint Promptable ReID?
Der neue Ansatz heisst Keypoint Promptable ReID (KPR). Diese Methode verbessert den traditionellen ReID-Prozess, indem sie Schlüsselstellen nutzt, die wichtige Körperteile einer Person repräsentieren, wie Kopf, Oberkörper und Gliedmassen. Diese Schlüsselstellen ermöglichen es dem System, sich speziell auf die interessierende Person zu konzentrieren, anstatt sich von anderen im selben Bild verwirren zu lassen.
KPR verwendet Bilder, die diese Schlüsselstellen enthalten, als Eingabe. Das Modell verarbeitet dann diese Informationen, um Merkmale basierend auf den sichtbaren Teilen der Person zu erstellen. Das hilft, die Zielperson von anderen zu unterscheiden, die sie möglicherweise blockieren. Die farbigen Punkte in den Bildern stehen für die verschiedenen Körperteile, auf die sich das Modell konzentriert.
Warum ist Multi-Person Ambiguity eine Herausforderung?
Wenn mehrere Personen im selben Bild sichtbar sind, wird es für das Modell schwierig, die beabsichtigte Zielperson genau zu bestimmen. Sogar Menschen haben Schwierigkeiten, Individuen in überfüllten Umgebungen zu erkennen. Frühere Methoden zur Identifizierung okkludierter Personen ignorieren oft diese Herausforderung, was zu Ungenauigkeiten bei der Personen-Re-Identifikation führt.
Um dies anzugehen, ist es notwendig, zusätzliche Informationen wie Schlüsselstellen einzubeziehen, die helfen können, das beabsichtigte Ziel zu unterscheiden. Diese Schlüsselstellen können von einem menschlichen Bediener stammt, der manuell ein paar Stellen in einem Bild anklickt, oder von einem Modell, das die Positionen dieser Körperteile automatisch schätzt.
Die Bedeutung von Datensätzen
Aktuelle Datensätze, die für das Training von Modellen verwendet werden, enthalten oft nicht die detaillierten Informationen, die nötig sind, um das Schlüsselstellen-Prompting effektiv umzusetzen. Um diese Einschränkung zu beheben, wurde ein neuer Datensatz mit Schlüsselstellen eingeführt. Dieser Datensatz umfasst eine Vielzahl von Bildern mit starken Inter-Person Okklusionen, was es Forschern ermöglicht, ihre Methoden besser zu trainieren und zu testen.
Zusätzlich wurden benutzerdefinierte Schlüsselstellen-Labels für vier beliebte ReID-Benchmarks erstellt. Durch die Bereitstellung dieser Ressourcen ist das Ziel, weitere Forschung im Bereich des schlüsselstellenbasierten Prompting zu fördern und die Gesamtleistung der Systeme zur Personen-Re-Identifikation zu verbessern.
Wie funktioniert KPR?
Das KPR-System ist darauf ausgelegt, ein Bild mit Schlüsselstellen zu nehmen und partielle Merkmale für die identifizierte Zielperson zu erzeugen. Dies geschieht, indem nur die Teile der Person betrachtet werden, die sichtbar sind. Das Modell berechnet die Ähnlichkeiten zwischen der Zielperson und anderen im Bild, was es ihm ermöglicht, die gewünschte Person wiederzuerkennen, egal ob sie vor oder hinter anderen Personen steht.
KPR kann auch sowohl positive als auch negative Schlüsselstellen verarbeiten. Positive Schlüsselstellen zeigen auf die Zielperson, während negative Schlüsselstellen nicht-Zielpersonen repräsentieren. Das ermöglicht dem Modell, besser zu verstehen, welche Teile für die Re-Identifikation relevant sind.
Vorteile von KPR gegenüber früheren Methoden
KPR geht mehrere Einschränkungen bestehender Methoden an:
- Es bekämpft direkt das Problem der Multi-Person Ambiguity, was eine bessere Identifizierung des Ziels ermöglicht.
- Es verwendet einen einzigartigen Prozess zur Merkmalsgewinnung, der sich auf die Eingabeschlüsselstellen konzentriert.
- Das Modell ist flexibel und funktioniert sowohl mit als auch ohne Prompts, was es für verschiedene Szenarien geeignet macht.
In Tests mit Aufgaben zur Personenretrieval und Pose Tracking hat KPR durchweg frühere state-of-the-art Methoden in Szenarien mit Okklusionen übertroffen.
Bewertung der KPR-Performance
KPR wurde auf verschiedenen Datensätzen evaluiert, die Folgendes umfassen:
- Market-1501: Dieser Datensatz enthält Bilder von einzelnen Personen.
- Occluded-ReID und Partial-ReID: Diese konzentrieren sich auf Szenarien mit Objektokklusionen.
- Der neu eingeführte Datensatz, der sich mit Multi-Person Okklusionen befasst.
Zwei Hauptbewertungsmetriken wurden verwendet: die Cumulative Match Characteristic (CMC) bei Rang-1 und die mean Average Precision (mAP). Die Ergebnisse auf diesen Datensätzen zeigen die Effektivität von KPR und zeigen signifikante Verbesserungen im Vergleich zu traditionellen Methoden.
Die Datensatz-Herausforderung
Eine der Haupt Herausforderungen bei der Entwicklung robuster okkludierter ReID-Modelle ist die begrenzte Anzahl von okkludierten Beispielen in den Trainingsdatensätzen. Daher wurden zusätzliche Techniken wie die Batch-wise Inter-Person Occlusion (BIPO) Augmentation eingesetzt. Dieser Ansatz erstellt künstlich Okklusionen in Trainingsbildern, indem Bilder anderer Leute über den Zielbildern gelegt werden. Dadurch lernt das Modell, sich auf die Prompts zu verlassen und verbessert seine Leistung in realen okkludierten Szenarien.
Architektur von KPR
Die Architektur von KPR basiert auf einem Transformer-Modell, das verbessert wurde, um hochauflösende Merkmalskarten zu erzeugen. Dies ist entscheidend, um detaillierte Informationen über sichtbare Körperteile zu erfassen. Das Modell arbeitet, indem es zunächst die Eingabebilder und Schlüsselstellen tokenisiert und sie dann durch eine mehrstufige Mergerfusion-Strategie verarbeitet. Das Ergebnis ist eine Menge von teilbasierten Einbettungen, die zur Identifizierung verwendet werden.
Das Part-based Head (PBH) Modul ist entscheidend, um jedes Token einem bestimmten Körperteil zuzuordnen. Dadurch kann das Modell partspezifische Merkmale erzeugen, die effektiver zur Identifizierung okkludierter Personen sind.
Trainings- und Inferenzprozess
Der Trainingsprozess umfasst die Anwendung mehrerer Verluste, einschliesslich eines Part Prediction Loss und eines ReID Loss. Der Part Prediction Loss hilft dem Modell, Körperteile effektiv zu klassifizieren, während sich der ReID Loss auf die genaue Zuordnung der Zielindividualen konzentriert.
Während der Inferenz verarbeitet KPR Bilder zusammen mit ihren zugehörigen Schlüsselstellen, um Darstellungen für die identifizierten Individuen zu erzeugen. Die Leistung während dieser Phase wird bewertet, indem die Ähnlichkeiten zwischen dem Abfragebild und den Bildern im Galerien-Set verglichen werden.
Anwendungsgebiete von KPR in der realen Welt
Die Entwicklung von KPR eröffnet verschiedene Anwendungsmöglichkeiten in der realen Welt. Es kann Systeme in Bereichen wie:
- Videoüberwachung, wo die Identifizierung von Personen in überfüllten Orten entscheidend ist.
- Multi-Objekt-Tracking, das eine genaue Identifizierung von Individuen über die Zeit erfordert.
- Sportanalytik, wo die Spieleridentifikation wichtig ist, um die Spielleistung zu analysieren.
Die Verbesserungen, die KPR bietet, können helfen, diese Systeme widerstandsfähiger und zuverlässiger in herausfordernden Umgebungen zu machen.
Fazit
Zusammenfassend stellt Keypoint Promptable Re-Identification einen erheblichen Fortschritt im Umgang mit okkludierter Personen-Re-Identifikation dar. Indem es die Herausforderungen der Multi-Person Ambiguity angeht und detaillierte Schlüsselstelleninformationen integriert, bietet KPR eine flexible und effektive Lösung zur genauen Identifizierung von Individuen in komplexen Szenarien. Die Veröffentlichung neuer Datensätze und Codes fördert zusätzlich die Erkundung und Weiterentwicklung in diesem Bereich und ebnet den Weg für anspruchsvollere Systeme in der Zukunft.
Titel: Keypoint Promptable Re-Identification
Zusammenfassung: Occluded Person Re-Identification (ReID) is a metric learning task that involves matching occluded individuals based on their appearance. While many studies have tackled occlusions caused by objects, multi-person occlusions remain less explored. In this work, we identify and address a critical challenge overlooked by previous occluded ReID methods: the Multi-Person Ambiguity (MPA) arising when multiple individuals are visible in the same bounding box, making it impossible to determine the intended ReID target among the candidates. Inspired by recent work on prompting in vision, we introduce Keypoint Promptable ReID (KPR), a novel formulation of the ReID problem that explicitly complements the input bounding box with a set of semantic keypoints indicating the intended target. Since promptable re-identification is an unexplored paradigm, existing ReID datasets lack the pixel-level annotations necessary for prompting. To bridge this gap and foster further research on this topic, we introduce Occluded-PoseTrack ReID, a novel ReID dataset with keypoints labels, that features strong inter-person occlusions. Furthermore, we release custom keypoint labels for four popular ReID benchmarks. Experiments on person retrieval, but also on pose tracking, demonstrate that our method systematically surpasses previous state-of-the-art approaches on various occluded scenarios. Our code, dataset and annotations are available at https://github.com/VlSomers/keypoint_promptable_reidentification.
Autoren: Vladimir Somers, Christophe De Vleeschouwer, Alexandre Alahi
Letzte Aktualisierung: 2024-07-25 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2407.18112
Quell-PDF: https://arxiv.org/pdf/2407.18112
Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.