Verbesserung der Erkennung menschlicher Aktivitäten mit Zwei-Phasen-Techniken
Ein neuer Ansatz verbessert die Aktivitätserkennung mit tragbaren Geräten ohne umfangreiche Labels.
― 5 min Lesedauer
Inhaltsverzeichnis
Die Erkennung menschlicher Aktivitäten (HAR) ist wichtig, um zu verstehen, wie Leute in ihrem Alltag agieren. Das kann verschiedene Anwendungen verbessern, von Smart Homes bis hin zu Gesundheitsversorgung. HAR nutzt Daten von tragbaren Geräten wie Smartwatches oder Fitness-Trackern, um zu verfolgen, wie sich Menschen bewegen und mit welchen Objekten sie interagieren. Diese Daten können zeigen, welche Aktivitäten jemand gerade macht, wie zum Beispiel Kochen oder Putzen.
Die Bedeutung tragbarer Geräte
Tragbare Geräte sind praktisch für HAR, weil sie oft weniger aufdringlich sind als andere Methoden, wie z.B. Videokameras. Sie sammeln Daten darüber, wie Menschen ihre Hände und Körper im Laufe des Tages nutzen. Wenn jemand zum Beispiel mit einem Messer Gemüse schneidet, kann das Gerät diese Aktivität registrieren, ohne dass ein Etikett oder manuelle Eingabe nötig ist.
Allerdings erfordern traditionelle HAR-Methoden oft gekennzeichnete Daten, was bedeutet, dass jemand markieren muss, was jede Aktivität ist. Diese Etiketten zu erstellen, kann viel Zeit und Fachwissen kosten. Daher wächst das Interesse an unüberwachten Lerntechniken. Diese Methoden ermöglichen es Systemen, aus Daten zu lernen, ohne gekennzeichnete Aktivitäten zu benötigen.
Unüberwachte Lerntechniken
In den letzten Jahren haben Forscher nach Wegen gesucht, wie Unüberwachtes Lernen helfen kann, Aktivitäten zu erkennen, ohne umfangreiche Etiketten zu benötigen. Indem man sich auf die Objekte konzentriert, die Menschen verwenden, ist es möglich, verschiedene Aktivitäten zu identifizieren. Wenn jemand zum Beispiel einen Besen und eine Kehrschaufel benutzt, kann das darauf hindeuten, dass er putzt.
Einige Studien haben gezeigt, dass das Aufzeichnen der Reihenfolge von verwendeten Objekten in verschiedenen Aufgaben zu erfolgreicher Aktivitätserkennung führen kann. Dabei geht es darum, die Reihenfolge, in der die Gegenstände verwendet werden, zu beobachten und zu verstehen, wie diese Gegenstände mit spezifischen Aktivitäten zusammenhängen.
Herausforderungen bei HAR
Eine der Herausforderungen bei HAR ist, dass viele Aktivitäten sich überschneidende Objekte haben. Zum Beispiel könnten sowohl Kochen als auch Putzen ein Schneidebrett erfordern. Wenn nur die Objektnamen bereitgestellt werden, wird es für das System schwierig, zu erkennen, welche Aktivität gerade stattfindet.
Eine weitere Herausforderung ist, dass bestehende Methoden zur Anleitung oder Führung von Lernmodellen oft nicht klären, welche Objekte am wichtigsten sind, um zwischen ähnlichen Aktivitäten zu unterscheiden. Das kann zu Verwirrung und falscher Aktivitätserkennung führen.
Zwei-Phasen-Prompt-Engineering
Um diese Herausforderungen anzugehen, wurde ein neuer Ansatz namens Zwei-Phasen-Prompt-Engineering eingeführt. Diese Methode zielt darauf ab, wie Informationen in Lernmodelle wie ChatGPT eingespeist werden.
Erste Phase: Wissensgenerierung
In der ersten Phase ist das Ziel, detaillierte Beschreibungen von Aktivitäten basierend auf den verwendeten Objekten zu erstellen. Anstatt nur eine Liste von Objekten bereitzustellen, hilft dieser Ansatz zu klären, welche Objekte wichtig sind, um zwischen Aktivitäten zu unterscheiden. Durch die Generierung von Beschreibungen, die mit spezifischen Aktivitäten zusammenhängen, wird es für das Modell einfacher, verschiedene Aktionen zu erkennen.
Wenn das Modell also von einer Aufräumaktivität erfährt, kann es verstehen, dass das möglicherweise Objekte wie einen Besen und eine Kehrschaufel beinhaltet. Ähnlich würde es von einer morgendlichen Routine lernen, die das Öffnen von Schubladen und das Einschalten von Lichtern beinhalten könnte.
Zweite Phase: Antwortgenerierung
Die zweite Phase nutzt das in der ersten Phase generierte Wissen, um Vorhersagen darüber zu treffen, welche Aktivität basierend auf den aufgeführten Objekten durchgeführt wird. Indem sich das Modell auf die in der ersten Phase erstellten Beschreibungen konzentriert, kann es besser vorhersagen, welche Aktivität zu den bereitgestellten Objekten passt.
Wenn eine Liste von Objekten in das Modell eingegeben wird, kann es jetzt auf die generierten Beschreibungen zurückgreifen, um die wahrscheinlichste Aktivität zu klären. Wenn zum Beispiel die Eingabe eine Liste mit einer Bratpfanne und einem Pfannenwender ist, kann das Modell erkennen, dass hier gekocht wird.
Vergleich mit anderen Ansätzen
Diese Zwei-Phasen-Methode wurde mit anderen gängigen Lernmethoden getestet. Einige Ansätze nutzen zum Beispiel Zero-Shot-Prompting, was bedeutet, dass sie kein Hintergrundwissen bereitstellen und sich nur auf die Objektnamen für Vorhersagen stützen. Andere verwenden retrieval-basiertes Wissen-Prompting, bei dem Wissen aus Datensätzen oder anderen Quellen abgerufen wird.
Allerdings hat das Zero-Shot-Prompting Probleme mit sich überschneidenden Objekten, da es an zusätzlichem Kontextwissen fehlt. Retrieval-basierte Methoden schnitten ebenfalls nicht gut ab, während die Zwei-Phasen-Methode konstant bessere Ergebnisse lieferte.
Experimentelle Bewertung
Die vorgeschlagene Methode wurde an mehreren Datensätzen evaluiert, die verschiedene menschliche Aktivitäten verfolgen. Die Ergebnisse zeigten, dass der Zwei-Phasen-Ansatz traditionelle Methoden in der korrekten Erkennung von Aktivitäten übertraf.
In einem Datensatz, in dem alltägliche Aktivitäten wie Kochen aufgezeichnet wurden, konnte der Zwei-Phasen-Ansatz ähnliche Aufgaben viel effektiver differenzieren. Er identifizierte Aktivitäten erfolgreich, indem er sinnvolle Beschreibungen aus den gegebenen Objekten und zuvor generiertem Wissen erstellte.
Fazit
Zusammenfassend hat die Erkennung menschlicher Aktivitäten mit tragbaren Geräten viel Potenzial für verschiedene Anwendungen, bringt aber auch Herausforderungen mit sich. Traditionelle Methoden erfordern oft umfangreiche gekennzeichnete Daten, was unpraktisch sein kann. Der Ansatz des Zwei-Phasen-Prompt-Engineerings bietet eine Lösung, die die Aktivitätserkennung verbessert, indem sie sinnvolle Aktivitätsbeschreibungen basierend auf den verwendeten Objekten generiert. Diese Methode konzentriert sich nicht nur auf die Beziehungen zwischen Aktivitäten und Objekten, sondern erhöht auch die Genauigkeit der Vorhersagen, ohne umfangreiches Hintergrundwissen oder Etiketten zu benötigen.
Wenn die HAR-Technologie weiter voranschreitet, werden diese Verbesserungen es Systemen erleichtern, menschliches Verhalten zu verstehen und die Anwendungen zu verbessern, die auf diesem Verständnis basieren. Egal ob bei persönlichem Gesundheitsmonitoring, smarten Lebensumgebungen oder unterstütztem Wohnen, die genaue Erkennung menschlicher Aktivitäten wird den Weg für personalisierte und effizientere Systeme ebnen.
Titel: Unsupervised Human Activity Recognition through Two-stage Prompting with ChatGPT
Zusammenfassung: Wearable sensor devices, which offer the advantage of recording daily objects used by a person while performing an activity, enable the feasibility of unsupervised Human Activity Recognition (HAR). Unfortunately, previous unsupervised approaches using the usage sequence of objects usually require a proper description of activities manually prepared by humans. Instead, we leverage the knowledge embedded in a Large Language Model (LLM) of ChatGPT. Because the sequence of objects robustly characterizes the activity identity, it is possible that ChatGPT already learned the association between activities and objects from existing contexts. However, previous prompt engineering for ChatGPT exhibits limited generalization ability when dealing with a list of words (i.e., sequence of objects) due to the similar weighting assigned to each word in the list. In this study, we propose a two-stage prompt engineering, which first guides ChatGPT to generate activity descriptions associated with objects while emphasizing important objects for distinguishing similar activities; then outputs activity classes and explanations for enhancing the contexts that are helpful for HAR. To the best of our knowledge, this is the first study that utilizes ChatGPT to recognize activities using objects in an unsupervised manner. We conducted our approach on three datasets and demonstrated the state-of-the-art performance.
Autoren: Qingxin Xia, Takuya Maekawa, Takahiro Hara
Letzte Aktualisierung: 2023-06-03 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2306.02140
Quell-PDF: https://arxiv.org/pdf/2306.02140
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.