Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung

Vorstellung des 3DGrocery100 Datasets für verbesserte Lebensmittelerkennung

Ein neuer Datensatz hat das Ziel, die Erkennung von Lebensmittelartikeln durch detaillierte 3D-Daten zu verbessern.

― 7 min Lesedauer


3DGrocery100 Datensatz3DGrocery100 DatensatzVeröffentlichungLebensmittelartikeln.Erkennungsfähigkeiten vonNeuer Datensatz verbessert die
Inhaltsverzeichnis

Einkaufsartikel genau zu erkennen, ist wichtig für Bereiche wie Selbstbedienungskassen, Roboter in Geschäften und Hilfe für Menschen mit Sehbehinderungen. Die meisten aktuellen Lebensmittel-Daten bestehen aus 2D-Bildern, was die Möglichkeiten der Modelle einschränkt, verschiedene Produkte zu erkennen, da sie nicht die volle Form der Artikel einfangen. In letzter Zeit wurden fortschrittliche 3D-Sensoren wie LiDAR und TrueDepth in Smartphones integriert, die es ermöglichen, detailliertere 3D-Daten zu sammeln. Allerdings gibt es weiterhin eine grosse Lücke, da es nur wenige grossangelegte, reale 3D-Datensätze gibt, die sich auf Lebensmittelartikel konzentrieren.

Um das anzugehen, stellen wir einen neuen grossangelegten Lebensmitteldatensatz namens 3DGrocery100 vor. Dieser Datensatz umfasst 100 verschiedene Arten von Lebensmitteln mit insgesamt 87.898 3D-Punktwolken, die aus 10.755 RGB-D-Bildern erstellt wurden. Wir haben diesen Datensatz auch mit sechs fortschrittlichen Modellen zur Klassifizierung von 3D-Punktwolken getestet. Der Datensatz bildet eine Grundlage für weitere Forschungen zur Lebensmittelerkennung.

Datensatzübersicht

3DGrocery100 besteht aus 10.755 RGB-D-Bildern und 87.898 Punktwolken in 100 Kategorien. Die Artikel sind in drei Hauptkategorien gruppiert: Früchte (10 Apfel- und 24 Nicht-Apfel-Klassen), Gemüse (28) und Verpackungen (38). Der Datensatz wurde unter realen Bedingungen in Lebensmittelgeschäften gesammelt und bietet eine vielfältige Darstellung von Lebensmitteln und deren Anordnung.

Einige Lebensmittelartikel, insbesondere frisches Obst und Gemüse, können aufgrund von Preisproblemen, zufälliger Platzierung und unterschiedlichen Ausrichtungen schwer zu erkennen sein. Diese Probleme unterstreichen die Notwendigkeit besserer Datensammlungsmethoden, insbesondere solcher, die eine effektive Erfassung von 3D-Features ermöglichen.

Bedeutung von 3D-Daten

3D-Computer Vision wird zunehmend wichtig mit Anwendungen in Bereichen wie Gesundheitswesen und Augmented Reality. In Lebensmittelgeschäften kann die genaue Identifizierung und Lokalisierung von Artikeln das Einkaufserlebnis verbessern und bei der Bestandsverwaltung helfen. Traditionelle 2D-Datensätze bieten nicht die Tiefeninformationen, die nötig sind, um Lebensmittelartikel vollständig zu erkennen und zu klassifizieren.

3D-Daten sind wertvoll, weil sie die Form und Struktur von Artikeln erfassen. Diese Daten sind entscheidend für Deep-Learning-Modelle, die die feinen Details von Lebensmittelobjekten erlernen müssen, was die Erkennungsleistung erheblich beeinflussen kann.

Der Bedarf an 3DGrocery100

Trotz jüngster Fortschritte bei der 3D-Datensammlung gibt es immer noch einen Mangel an 3D-Lebensmitteldatensätzen. Bestehende Datensätze bieten oft nicht genügend Vielfalt und feinkörnige Kategorien. Um einen praktischen Datensatz zu erstellen, haben wir Mobiltelefone mit fortschrittlichen 3D-Sensoren genutzt, um Bilder auf einfache und effiziente Weise zu sammeln. Dieser Ansatz ermöglicht es uns, Einblick-RGB- und Tiefenbilder in brauchbare 3D-Punktwolken umzuwandeln.

Unser Datensatz zielt darauf ab, die Lücke in der 3D-Lebensmittelerkennung zu schliessen, indem er eine gut organisierte Sammlung von Punktwolken bietet, die verschiedene Lebensmittelartikel im Detail repräsentieren.

Datenbeschaffungsprozess

Unsere Datensammlung fand über vier Monate in 18 verschiedenen Lebensmittelgeschäften statt. Der Prozess umfasste das Aufnehmen von RGB-D-Bildern von Artikeln in verschiedenen Geschäftseinrichtungen. Wir haben eine iOS-App verwendet, die mit modernen Smartphone-Kameras funktioniert, um sowohl RGB-Bilder als auch Tiefendaten zu erfassen. Diese App erlaubte eine effektive Bildsammlung, selbst wenn Lebensmittelartikel in weniger idealen Lichtverhältnissen oder Positionen platziert wurden.

Die LiDAR- und Stereo-Kamerafunktionen des iPhones halfen, eine bessere Tiefenabbildung und Punktwolkenqualität zu erzielen, was zu genaueren Darstellungen von Lebensmittelartikeln führte.

Datenhierarchie

Sobald die Daten gesammelt waren, wurden sie in strukturierte Kategorien organisiert. Der Datensatz klassifiziert die Artikel in Früchte, Gemüse und Verpackungen, mit zusätzlichen Unterkategorien für bessere Granularität. Jede Klasse enthält eine bestimmte Anzahl von Bildern und entsprechenden Punktwolkenproben, was eine vielfältige Analyse während der Experimente ermöglicht.

Datenannotation

Die Annotation der gesammelten Bilder war ein wichtiger Teil der Datensatz-Erstellung. Wir haben die Grenzen der Lebensmittelartikel innerhalb der 2D-RGB-Bilder markiert, um eine genaue Generierung von 3D-Punktwolken sicherzustellen. Dabei wurde sorgfältig darauf geachtet, die Objektgrenzen genau auszuwählen, um zusätzliches Rauschen in den Punktwolken zu vermeiden, das die Analyse beeinträchtigen könnte.

Datenverarbeitung und Reinigung

Die Verarbeitung von RGB-D-Bildern zu Punktwolken stellt einige Herausforderungen dar. Oft können Ausreisser und Rauschen während des Umwandlungsprozesses entstehen. Um diese Probleme anzugehen, haben wir spezifische Techniken angewendet, um die Daten zu reinigen, einschliesslich der Entfernung von Ausreissern und Entrauschungsmethoden. Das sorgt für einen qualitativ hochwertigeren Datensatz, der die Lebensmittelartikel genau widerspiegelt.

Entfernung von Ausreissern

Mit PointCleanNet konnten wir rauschende Punkte aus dem Datensatz identifizieren und entfernen. Durch den Fokus auf die Beibehaltung hochwertiger Punktwolken stellen wir sicher, dass der resultierende Datensatz zuverlässig für weitere Forschungen und Modelltraining genutzt werden kann.

Der Wert von 3DGrocery100

Die Einführung von 3DGrocery100 bietet die Möglichkeit für bedeutende Fortschritte in Lebensmittelerkennungssystemen. Durch die Bereitstellung eines grossen und vielfältigen Datensatzes wollen wir die Entwicklung von Methoden unterstützen, die Lebensmittelartikel effektiver klassifizieren und erkennen können.

Der Datensatz ist nicht nur umfangreich, sondern umfasst auch verschiedene Arten von Lebensmittelartikeln in realen Umgebungen, was es Forschern ermöglicht, Modelle zu entwickeln und zu verfeinern, die das Einkaufserlebnis für Verbraucher revolutionieren könnten und die Abläufe für Einzelhändler optimieren.

Benchmarking des Datensatzes

Um die Effektivität unseres Datensatzes zu validieren, haben wir ihn mit mehreren Modellen verglichen, die für ihre Leistung bei der Klassifizierung von Punktwolken bekannt sind. Dieser Prozess beinhaltete die Bewertung, wie gut diese Modelle die Lebensmittelartikel im Datensatz klassifizieren konnten, was Einblicke in ihre Stärken und Schwächen bietet.

Verwendete Klassifizierungsmodelle

Wir haben sechs hochmoderne Modelle getestet, die für die Klassifizierung von 3D-Punktwolken konzipiert wurden. Jedes Modell wurde daraufhin bewertet, wie gut es mit den einzigartigen Herausforderungen unseres Datensatzes umgehen konnte. Die Ergebnisse dieser Benchmarks bieten ein besseres Verständnis der aktuellen Fähigkeiten und Einschränkungen der bestehenden Technologie zur Lebensmittelerkennung.

Few-Shot Learning und Klassenzuwachs-Lernen

Few-Shot Learning und Klassenzuwachs-Lernen sind wichtige Forschungsbereiche im maschinellen Lernen, insbesondere bei neuen oder sich entwickelnden Datensätzen. Unser Datensatz ermöglicht Experimente in diesen Bereichen und hilft zu erkunden, wie gut Modelle aus begrenzten Beispielen generalisieren oder sich im Laufe der Zeit an neue Klassen von Artikeln anpassen können.

Few-Shot Learning

Wir haben eine Teilmenge unseres Datensatzes namens 3DGrocery63 erstellt, in der einige ähnliche Formklassen zusammengefasst sind. Diese Teilmenge dient als starke Grundlage für Few-Shot-Bewertungen, die es Forschern ermöglichen, zu testen, wie gut Modelle sich mit begrenzten Trainingsdaten anpassen können.

Klassenzuwachs-Lernen

Unser Datensatz ist auch geeignet für Klassenzuwachs-Lernen, was es uns ermöglicht zu erkunden, wie gut Modelle ihre Leistung aufrechterhalten, wenn neue Klassen eingeführt werden. Dies ist besonders nützlich für Anwendungen der Lebensmittelkennung, bei denen häufig neue Produkte hinzugefügt oder verändert werden.

Ergebnisse und Erkenntnisse

Die Ergebnisse aus unseren Benchmarks und Bewertungen bieten wertvolle Einblicke in die Leistung verschiedener Modelle, die unseren Datensatz verwenden. Wir haben beobachtet, dass einige Modelle in bestimmten Aufgaben glänzten, während andere Schwierigkeiten hatten, sich an die Komplexität der Lebensmittelartikelkennung anzupassen.

Leistungsübersicht

Das Benchmarking zeigte die Bedeutung von Farb- und geometrischen Merkmalen bei Klassifizierungsaufgaben. Modelle schnitten erheblich besser ab, wenn sie Farbdaten zusammen mit geometrischen Informationen verwendeten, was zeigt, wie wertvoll eine vollständige 3D-Darstellung für eine genaue Lebensmittelerkennung sein kann.

Einschränkungen und zukünftige Richtungen

Während 3DGrocery100 einen wichtigen Schritt im Bereich der Lebensmittelerkennung darstellt, gibt es immer noch Herausforderungen, die angegangen werden müssen. Probleme mit der Datenqualität, den Annotierungsprozessen und der Umwandlung der 3D-Darstellungen weisen auf Verbesserungsbereiche in zukünftigen Iterationen hin.

Zukünftige Arbeiten

Mögliche zukünftige Arbeiten umfassen die Erforschung von unüberwachten Lerntechniken, um die Datenannotation zu straffen und die Gesamtqualität des Datensatzes zu verbessern. Darüber hinaus könnte umfassenderes Benchmarking weitere Einblicke in die Fähigkeiten verschiedener Modelle in realen Lebensmittelszenarien liefern.

Fazit

Zusammenfassend hat der 3DGrocery100-Datensatz das Potenzial, die Forschung und Entwicklung in Lebensmittelerkennungssystemen erheblich zu verbessern. Durch die Kombination einer breiten Palette von Lebensmittelkategorien mit fortschrittlichen 3D-Datensammlungsmethoden dient dieser Datensatz als wichtige Ressource zur Verbesserung der in diesem Bereich verwendeten maschinellen Lernmodelle.

Die kontinuierliche Erforschung und Weiterentwicklung in der 3D-Lebensmittelerkennung wird den Weg für innovative Lösungen ebnen, die das Einkaufserlebnis für Verbraucher transformieren und die Abläufe für Einzelhändler optimieren können.

Originalquelle

Titel: A Benchmark Grocery Dataset of Realworld Point Clouds From Single View

Zusammenfassung: Fine-grained grocery object recognition is an important computer vision problem with broad applications in automatic checkout, in-store robotic navigation, and assistive technologies for the visually impaired. Existing datasets on groceries are mainly 2D images. Models trained on these datasets are limited to learning features from the regular 2D grids. While portable 3D sensors such as Kinect were commonly available for mobile phones, sensors such as LiDAR and TrueDepth, have recently been integrated into mobile phones. Despite the availability of mobile 3D sensors, there are currently no dedicated real-world large-scale benchmark 3D datasets for grocery. In addition, existing 3D datasets lack fine-grained grocery categories and have limited training samples. Furthermore, collecting data by going around the object versus the traditional photo capture makes data collection cumbersome. Thus, we introduce a large-scale grocery dataset called 3DGrocery100. It constitutes 100 classes, with a total of 87,898 3D point clouds created from 10,755 RGB-D single-view images. We benchmark our dataset on six recent state-of-the-art 3D point cloud classification models. Additionally, we also benchmark the dataset on few-shot and continual learning point cloud classification tasks. Project Page: https://bigdatavision.org/3DGrocery100/.

Autoren: Shivanand Venkanna Sheshappanavar, Tejas Anvekar, Shivanand Kundargi, Yufan Wang, Chandra Kambhamettu

Letzte Aktualisierung: 2024-04-07 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2402.07819

Quell-PDF: https://arxiv.org/pdf/2402.07819

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel