Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung

Bewertung von gemischten Modellen für Crowd Counting

Diese Studie vergleicht Einzel- und Mischmodelle für genauere Menschenzählung.

― 9 min Lesedauer


Crowd Counting: EinCrowd Counting: Eingemischter AnsatzBildintegration.optischer und thermischerUntersuchung der Effektivität von
Inhaltsverzeichnis

Bessere Informationen führen normalerweise zu besseren Entscheidungen und Vorhersagen. Einige Studien zeigen, dass die gleichzeitige Nutzung von normalen (optischen) Bildern und Wärmebildern die Genauigkeit bei der Zählung von Menschenmengen verbessern kann. Aber wie diese gemischten Modelle Informationen aus beiden Bildtypen nutzen, ist noch nicht ganz klar. Da die Hinzufügung beider Datentypen die Modelle komplexer macht und mehr Zeit und Speicher benötigt, ist es wichtig, multimodale (mit beiden Typen) Modelle mit einheitlichen Modalitäts (mit einem Typ) Modellen zu vergleichen.

In unserer Arbeit schauen wir uns alle bestehenden Datensätze an, die diese beiden Bildtypen für die Zählung von Menschenmengen nutzen. Wir haben ein Basis-Modell erstellt, das nur einen Datentyp nutzt, basierend auf dem, was über die einheitliche Modalität der Menschenzählung bekannt ist. Ausserdem haben wir mehrere gemischte Modelle mit verschiedenen Methoden zur Kombination der beiden Bildtypen gebaut. Die Hauptmerkmale unseres einheitlichen Modalitätsmodells wurden auch in den gemischten Modellen verwendet. So konnten wir herausfinden, ob die Verwendung beider Bildtypen wirklich zu besseren Ergebnissen bei der Zählung von Menschenmengen führt.

Interessanterweise haben wir festgestellt, dass bestehende Datensätze hauptsächlich Wärmebilder bevorzugen. Um das herauszufinden, haben wir die Helligkeit der optischen Bilder sowie die Anzahl der Personen in diesen Bildern und die Art und Weise, wie die Personen in jedem Datensatz gekennzeichnet wurden, untersucht. Dies ist eine wichtige Frage, die beantwortet werden muss, da sie bei zukünftigen realen Anwendungen der Menschenzählung helfen wird. Wir schlagen Standards vor, wie ein guter Datensatz aussehen sollte, um zu überprüfen, ob gemischte Modelle die Menschenzählung im Allgemeinen verbessern können.

Herausforderungen bei der Menschenzählung für den realen Einsatz

Eine grosse Herausforderung bei der Menschenzählung ist der Umgang mit verschiedenen Lichtverhältnissen. Die Zählung von Menschenmengen kann entscheidend für die Sicherheit bei Veranstaltungen und die Überwachung grosser Gruppen von Menschen sein. Daher ist es wichtig, dass das Zählen gut funktioniert, egal wie die Lichtverhältnisse sind. Nachts zum Beispiel kann das Licht schwach sein, was zu einer verringerten Sichtbarkeit bei optischen Bildern führt und die Vorhersagen weniger genau macht. In solchen Situationen können Wärmebilder nützlicher sein, da sie nicht von sichtbarem Licht abhängen.

Tagsüber hingegen können Optische Bilder aufgrund ihrer Farben mehr Details erfassen als Wärmebilder. Ausserdem könnten bei steigenden Temperaturen tagsüber Wärmebilder weniger Kontrast bieten, da die Körperwärme der Menschen konstant bleibt. Die Verwendung beider Arten von Bildern zusammen scheint gut zu funktionieren, um die Ergebnisse im Vergleich zur Verwendung nur eines Typs zu verbessern.

Viele erfolgreiche Modelle wurden entwickelt, die sowohl optische als auch thermale Daten verwenden. Besonders mit dem Aufkommen von Transformern ist es einfacher geworden, verschiedene Modalitäten wie Text oder Bilder in einem Modell zu kombinieren. Dennoch wurden Transformatoren in der einheitlichen Modalität der Menschenzählung nicht voll ausgeschöpft. Bis auf eine Studie hat sich die vorherige Forschung hauptsächlich auf konvolutionale Netzwerke konzentriert. Die Verwendung von Transformatoren kann neue Möglichkeiten eröffnen, da sie eine bessere Leistung beim Herausfiltern detaillierter Merkmale gezeigt haben.

Trotz der Annahme, dass die Kombination von optischen und thermalen Bildern die Vorhersagen zur Zählung von Menschenmengen verbessern würde, ist immer noch nicht ganz klar, wie diese Modelle intern funktionieren und wie sie nützliche Merkmale aus beiden Bildtypen extrahieren.

Bedarf an weiterer Forschung

Nicht nur fehlt es an einem Verständnis dafür, wie gemischte Modelle funktionieren, sondern es ist auch unklar, ob die Verwendung beider Bildtypen insgesamt zu besseren Zählungen führt oder nur unter bestimmten Umständen. Es sind weitere Studien erforderlich, die Faktoren wie Lichtverhältnisse, Abstand zur Menschenmenge und die Anzahl der Personen in einem Bild berücksichtigen, um besser beurteilen zu können, ob die Verwendung beider Bildtypen zu verbesserten Vorhersagen bei der Zählung von Menschenmengen führt.

Um die Auswirkungen der gleichzeitigen Verwendung von optischen und thermalen Bildern zu bewerten, haben wir ein einheitliches Modell und mehrere gemischte Modelle entwickelt, die die gleichen Schlüsselmmerkmale teilen. Bei der Gestaltung des einheitlichen Modells haben wir die neuesten Entwicklungen in der einheitlichen Menschenzählung im Hinterkopf behalten. Wir haben drei verschiedene gemischte Modelle erstellt, die unterschiedliche Strategien zur Kombination der beiden Bildtypen nutzen.

Das Ziel dieses Vergleichs ist es herauszufinden, ob gemischte Modelle insgesamt besser abschneiden oder nur in bestimmten Situationen. Diese Untersuchung lieferte interessante Ergebnisse, die uns zu einer weiteren Analyse der Datensätze führten, die wir für den Vergleich verwendet haben.

Ergebnisse aus den Datensätzen

Beim Vergleich der Unterschiede zwischen den einheitlichen und gemischten Modellen stellten wir fest, dass bestehende Datensätze eine Neigung zu Wärmebildern zeigen. Diese Voreingenommenheit erschwert es zu erkennen, ob die Verwendung beider Bildtypen insgesamt zu besseren Ergebnissen führt oder nur in bestimmten Situationen. Daher haben wir detailliert beschrieben, worauf man bei einem Datensatz achten sollte, der uns helfen würde, diese Forschungsfrage zu beantworten.

Vorherige Arbeiten zur Menschenzählung

Die Zählung von Menschenmengen wird seit vielen Jahren untersucht. Während einige Studien Wärmebilder verwendet haben, haben die meisten auf optische Bilder zurückgegriffen. Mit Deep-Learning-Techniken sind die Vorhersagen genauer geworden. In letzter Zeit sind Methoden, die Dichtenkarten für die Zählung von Menschenmengen erstellen, häufiger geworden. Viele Studien haben sich darauf konzentriert, wie man Unterschiede im Massstab innerhalb von Bildern angehen kann - mit Techniken wie Mehrsäulenmodellen oder dilatierten Faltungen, um Merkmale in verschiedenen Massstäben zu extrahieren.

Im Bereich der multimodalen Menschenzählung, die immer mehr Aufmerksamkeit erhält, wurden sowohl optische als auch thermale Bilder sowie optische und Tiefenbilder verwendet. Allerdings hat die Verwendung von Tiefenbildern Einschränkungen, da sie nur einen kurzen Bereich erfassen, was sie in vielen realen Situationen der Menschenzählung weniger praktisch macht. Die Verwendung von Tiefenbildern bringt auch die Herausforderung mit sich, dass in schlecht beleuchteten Szenen weniger Informationen vorhanden sind.

Aus diesem Grund bleibt unser Fokus auf der Kombination von optischen und thermalen Bildern. Während frühere Studien behaupten, dass die Hinzufügung von Wärmebildern die Vorhersagen zur Zählung von Menschenmengen verbessert, ist es unklar, wann es am effektivsten ist, Bilder beider Typen zu kombinieren, um bessere Ergebnisse zu erzielen. Frühere Forschungen haben hauptsächlich versucht, neue Modellarchitekturen zu schaffen, die existierende übertreffen, aber das erklärt nicht vollständig, wie die beiden Datentypen zusammenarbeiten.

Aktuelle Datensätze

Kürzlich wurden zwei bemerkenswerte Datensätze veröffentlicht, die Paare von optischen und thermalen Bildern enthalten. Ein Datensatz wurde mit einer Drohne gesammelt und enthält 3.600 Bildpaare sowie zusätzliche Informationen zu Abstand, Beleuchtung und Menschenzahlen pro Bild. Der zweite Datensatz umfasst 2.030 Bildpaare und bietet Details zur Anzahl der Personen und zur Beleuchtung für jedes Paar.

Vergleich der Modelle

Wir haben zunächst ein einheitliches Modell entwickelt, bevor wir drei gemischte Modelle erstellt haben. Unser einheitliches Modell basiert auf bestehenden Arbeiten und nutzt deren Kernkomponenten, um einen fairen Vergleich mit den gemischten Modellen zu gewährleisten.

Architektur der einheitlichen Modalität

Unser einheitliches Modell wird von einem Modell inspiriert, das nachweislich auf mehreren Benchmarks der einheitlichen Modalität Spitzenwerte erzielt hat. In unserem Fall verwendeten wir die PVTv2-Architektur, die sich als besser für unsere Bedürfnisse erwies. Dieses Modell nutzt weniger Ressourcen und performs dabei trotzdem ausreichend, wenn auch mit etwas niedrigeren Ergebnissen im Vergleich zu grösseren Varianten.

Gemischte Modalitäten

Nachdem wir das einheitliche Modell erstellt hatten, entwickelten wir drei verschiedene gemischte Modelle, die unterschiedliche Ansätze zur Kombination der Modalitäten nutzen. Die Schlüsselfunktionen unseres einheitlichen Modells wurden auch in diese gemischten Modelle einbezogen, um einen fairen Vergleich zu ermöglichen.

  • Frühes Fusionsmodell: Bei diesem Ansatz kombinieren wir die beiden Modalitäten zu Beginn des Modells. Wir haben unser einheitliches Modell angepasst, um mehrere Kanäle für dieses gemischte Modell zu unterstützen.

  • Spätes Fusionsmodell: Hier werden die Modalitäten am Ende kombiniert. Zunächst extrahieren wir Merkmale aus beiden Typen einzeln und fügen sie dann zusammen, bevor wir die finale Menschenanzahl erzeugen.

  • Tiefe Fusion: Im Gegensatz zu den beiden anderen Modellen erlaubt dieses, dass Informationen während des Prozesses der Merkmalsextraktion ausgetauscht werden, was zu einem komplexesten Design führt.

Evaluierung der Modelle

Um die Leistung unserer einheitlichen und gemischten Modelle zu bewerten, haben wir gängige Metriken verwendet, die in der Zählung von Menschenmengen genutzt werden. Unser Trainingsansatz spiegelte erfolgreiche Modelle in diesem Bereich wider und verwendete Techniken wie zufälliges Zuschneiden und den Einsatz eines Optimierers.

Die Ergebnisse zeigten, dass die Verwendung von Wärmebildern allein deutlich bessere Ergebnisse lieferte als die Verwendung von nur optischen Bildern. Interessanterweise deuteten unsere Ergebnisse zu einem Datensatz darauf hin, dass ein gemischter Ansatz nicht wie erwartet abschnitt, was darauf hindeutet, dass eine genauere Untersuchung der Datensätze notwendig war.

Analyse der Datensätze

Um die Ergebnisse besser zu verstehen, konzentrierten wir uns auf zwei Aspekte der Datensätze: die Beziehung zwischen Helligkeit und Menschenanzahl und wie Individuen in den Bildern gekennzeichnet wurden.

Helligkeit und Menschenanzahl

Zuerst analysierten wir, wie die Helligkeit optischer Bilder mit der Anzahl der Personen zusammenhängt. Viele optische Bilder waren schwach beleuchtet, was erklären könnte, warum Wärmebilder in diesen Fällen besser abschnitten. Dies wirft die Frage auf, ob die Datenqualität der Datensätze die Ergebnisse verfälschen könnte.

Kennzeichnungspraktiken

Wir haben auch einen genaueren Blick darauf geworfen, wie Individuen in den Datensätzen gekennzeichnet wurden. Wir stellten fest, dass nur Wärmebilder für die Kennzeichnung in beiden Datensätzen verwendet wurden, was beeinflussen könnte, wie Modelle lernen, genau zu zählen.

Standards für zukünftige Datensätze festlegen

Aufgrund der in den aktuellen Datensätzen gefundenen Einschränkungen schlagen wir Kriterien für bessere Datensätze in der Zukunft vor. Unsere Empfehlungen beinhalten, dass Bilder tagsüber aufgenommen werden, die Zählungen der Menschenmenge ausgeglichen sind und die optischen und thermalen Bilder eng abgestimmt bleiben.

Fazit: Ist gemischte Modalität besser?

Letztendlich deuten unsere Ergebnisse darauf hin, dass aktuelle Datensätze zu Wärmebildern tendieren, was die Schlussfolgerungen über die Wirksamkeit der gleichzeitigen Verwendung beider Bildtypen kompliziert. Während die Ergebnisse zeigen, dass Wärmebilder sehr effektiv sein können, bleibt die Frage, ob die Kombination der beiden Ansätze insgesamt zu besseren Vorhersagen führt.

Unsere Ergebnisse deuten auch darauf hin, dass ein gemischter Ansatz tagsüber gut abschneiden kann, während Wärmebilder allein nachts besser funktionieren. Diese Ideen bedürfen jedoch weiterer Tests und Untersuchungen. Wir betonen die Notwendigkeit besserer Datensätze, um die Vorteile und Herausforderungen der multimodalen Menschenzählung solide zu erforschen.

Originalquelle

Titel: Why Existing Multimodal Crowd Counting Datasets Can Lead to Unfulfilled Expectations in Real-World Applications

Zusammenfassung: More information leads to better decisions and predictions, right? Confirming this hypothesis, several studies concluded that the simultaneous use of optical and thermal images leads to better predictions in crowd counting. However, the way multimodal models extract enriched features from both modalities is not yet fully understood. Since the use of multimodal data usually increases the complexity, inference time, and memory requirements of the models, it is relevant to examine the differences and advantages of multimodal compared to monomodal models. In this work, all available multimodal datasets for crowd counting are used to investigate the differences between monomodal and multimodal models. To do so, we designed a monomodal architecture that considers the current state of research on monomodal crowd counting. In addition, several multimodal architectures have been developed using different multimodal learning strategies. The key components of the monomodal architecture are also used in the multimodal architectures to be able to answer whether multimodal models perform better in crowd counting in general. Surprisingly, no general answer to this question can be derived from the existing datasets. We found that the existing datasets hold a bias toward thermal images. This was determined by analyzing the relationship between the brightness of optical images and crowd count as well as examining the annotations made for each dataset. Since answering this question is important for future real-world applications of crowd counting, this paper establishes criteria for a potential dataset suitable for answering whether multimodal models perform better in crowd counting in general.

Autoren: Martin Thißen, Elke Hergenröther

Letzte Aktualisierung: 2023-04-13 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2304.06401

Quell-PDF: https://arxiv.org/pdf/2304.06401

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel