Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Mensch-Computer-Interaktion# Künstliche Intelligenz# Computer Vision und Mustererkennung# Robotik

Verbesserung der Mensch-Roboter-Zusammenarbeit mit Aufmerksamkeits-Erkennung

Diese Studie konzentriert sich darauf, menschliche Aufmerksamkeit zu erkennen, um die Roboterassistenz in Arbeitsumgebungen zu verbessern.

― 5 min Lesedauer


AufmerksamkeitserkennungAufmerksamkeitserkennungin derMensch-Roboter-Arbeitverbessert.Blickrichtung die RoboterhilfeEine Studie zeigt, wie die
Inhaltsverzeichnis

In der heutigen Welt wird es immer üblicher, mit Robotern zu arbeiten, besonders in Fabriken. Um sicherzustellen, dass Menschen und Roboter gut zusammenarbeiten, müssen wir darauf achten, wie Menschen sich auf ihre Aufgaben konzentrieren. Diese Konzentration, oder Aufmerksamkeit, zeigt sich oft daran, wo eine Person hinschaut – das nennt man „Blickrichtung“. Zu verstehen, wo jemand hinschaut, ist wichtig, um die Art und Weise zu verbessern, wie Roboter menschliche Arbeiter unterstützen.

Die Bedeutung der Aufmerksamkeitswahrnehmung

Wenn Menschen neben Robotern arbeiten, kann ihre Konzentration dem Roboter viel darüber sagen, was der Mensch braucht. Wenn ein Arbeiter zum Beispiel wegschaut oder abgelenkt wirkt, muss der Roboter vielleicht langsamer werden oder stoppen, um nicht im Weg zu stehen. Zu erkennen, wann jemand abgelenkt ist, kann den Stress für den menschlichen Bediener reduzieren und zu einer besseren Arbeitserfahrung führen.

Aufmerksamkeit kann in drei Hauptbereiche unterteilt werden, je nachdem, wo eine Person hinschaut:

  1. Aufmerksamkeit auf den Roboter: Das bedeutet, dass die Person beobachtet, was der Roboter macht, oder darauf wartet, dass er eine Aufgabe erledigt.
  2. Aufmerksamkeit auf dem Arbeitstisch: Die Person konzentriert sich auf die Arbeit, die sie gerade erledigt.
  3. Ablenkt: Der Mensch schaut woanders hin und ist nicht auf den Roboter oder die Aufgabe fokussiert.

Wie wir Aufmerksamkeit erkennen

Um herauszufinden, wohin jemand schaut, verwenden wir einen speziellen Ansatz. Wir haben ein Computerprogramm trainiert, das als Deep-Learning-Modell bezeichnet wird. So funktioniert es:

  1. Blickschätzungsmodell: Zuerst trainieren wir ein Modell, um zu verstehen, wohin jemand schaut, basierend auf Bildern. Ein grosses Datenset mit Bildern, auf denen Menschen in verschiedene Richtungen schauen, hilft, dieses Modell zu trainieren.

  2. Transferlernen für die Aufmerksamkeitswahrnehmung: Sobald wir das Modell zur Blickschätzung haben, wenden wir es an, um die Fokussierungsbereiche zu identifizieren. Wir nehmen, was das erste Modell gelernt hat, und verwenden es, um unser Modell zur Aufmerksamkeitswahrnehmung mit einem kleineren Datenset zu trainieren. Dieses kleinere Datenset enthält Bilder, die als „Blick auf den Roboter“, „Blick auf den Tisch“ oder „abgelenkt“ gekennzeichnet sind.

Aufbau des Experiments

Um zu testen, wie gut unser Modell funktioniert, haben wir eine Montageaufgabe eingerichtet, die das nachahmt, was in einem industriellen Umfeld passiert. Ein menschlicher Bediener arbeitet mit einem Roboter zusammen, um ein Produkt, wie ein Getriebe, zusammenzubauen. Wir haben einen Arbeitsbereich mit zwei Tischen gestaltet, die so angeordnet sind, dass der Roboter und der Mensch leicht zusammenarbeiten können.

Der Bediener und der Roboter teilen sich die Arbeit: Der Roboter übernimmt einige Teile, während der Mensch andere macht. Sowohl der Roboter als auch die Person müssen ein Auge aufeinander haben, und ihre Interaktionen können sich ändern, je nachdem, wohin der Blick des Einzelnen gerichtet ist.

Datensammlung

Um Daten für den Aufbau unserer Modelle zu sammeln, haben wir Videos von Teilnehmern aufgenommen, die Montageaufgaben mit dem Roboter erledigen. Jede Sitzung dauerte etwa eine Stunde, und die Teilnehmer arbeiteten über mehrere Tage, um eine echte Arbeitsumgebung zu simulieren. Die Videos hielten natürliche Interaktionen fest, ohne die Teilnehmer zu lenken, wohin sie schauen sollten, um echtes Blickverhalten zu gewährleisten.

Auswertung unseres Modells

Nach der Datensammlung haben wir verschiedene Methoden verwendet, um zu sehen, wie gut unser Modell zur Blickerkennung funktioniert. Wir konzentrierten uns nicht nur darauf, wie genau es erkennt, wohin jemand schaut, sondern auch darauf, wie gut es erkennt, wann eine Person abgelenkt ist.

  1. Leave-One-Subject-Out-Evaluierung: Dieser Ansatz stellt sicher, dass wir das Modell mit Daten testen, die es vorher nicht gesehen hat. Das ist wichtig, um zu überprüfen, ob unser Modell sein Lernen auf neue Personen generalisieren kann.

  2. Ergebnisse und Beobachtungen: Die Ergebnisse zeigten, dass das Modell gut funktioniert, mit einer hohen Genauigkeit bei der Erkennung, wo die Aufmerksamkeit der Person liegt. Allerdings merkten wir, dass die Erkennung, wann jemand abgelenkt ist, Verbesserungsbedarf hat, da viele abgelenkte Momente fälschlicherweise als Aufmerksamkeit auf den Arbeitstisch angesehen wurden.

Erkenntnisse aus der Studie

Aus unserer Forschung haben wir wichtige Dinge über die Aufmerksamkeitswahrnehmung gelernt:

  • Bedarf an realistischen Tests: Traditionelle Studien testen oft Menschen in kontrollierten Umgebungen, wo ihnen genau gesagt wird, wohin sie schauen sollen. Das spiegelt nicht die echten Arbeitsbedingungen wider. Unsere Studie betont die Wichtigkeit, Modelle in realistischen Umgebungen zu beurteilen, in denen die Personen frei entscheiden können, wohin sie schauen.

  • Herausforderungen bei der Erkennung: Obwohl die Modelle gute Arbeit leisten, gibt es Raum für Verbesserungen. Es kann schwierig sein, zwischen jemandem zu unterscheiden, der auf den Arbeitstisch schaut und abgelenkt ist, und jemandem, der wirklich arbeitet.

  • Zukünftige Forschungsrichtungen: In Zukunft wollen wir unser Aufmerksamkeitswahrnehmungsmodell verbessern, indem wir mehr Daten einbeziehen, wie zum Beispiel zu messen, wie nah die Hände einer Person am Arbeitstisch sind und ihre Gesamtposition. Dieser multidimensionale Ansatz könnte zu einem besseren Verständnis und einer besseren Vorhersage der Fokussierung einer Person führen.

Fazit

Zusammenfassend ist es vorteilhaft, zu erkennen, wohin ein menschlicher Bediener während der Zusammenarbeit mit einem Roboter schaut, um reibungslosere Interaktionen zu schaffen. Indem wir Modelle trainieren, die die Blickrichtung erfassen, können wir Roboter helfen, ihre Aktionen basierend auf der Präsenz oder Abwesenheit menschlicher Aufmerksamkeit anzupassen. Diese Studie bietet eine solide Grundlage für zukünftige Arbeiten, um robotergestützte Aufgaben in realen Umgebungen effizienter und benutzerfreundlicher zu gestalten.

Die Erkenntnisse aus dieser Forschung werden letztendlich zu Fortschritten in der Mensch-Roboter-Kollaboration beitragen und sicherstellen, dass beide Parteien effektiv in verschiedenen industriellen Anwendungen zusammenarbeiten können.

Originalquelle

Titel: Gaze-based Attention Recognition for Human-Robot Collaboration

Zusammenfassung: Attention (and distraction) recognition is a key factor in improving human-robot collaboration. We present an assembly scenario where a human operator and a cobot collaborate equally to piece together a gearbox. The setup provides multiple opportunities for the cobot to adapt its behavior depending on the operator's attention, which can improve the collaboration experience and reduce psychological strain. As a first step, we recognize the areas in the workspace that the human operator is paying attention to, and consequently, detect when the operator is distracted. We propose a novel deep-learning approach to develop an attention recognition model. First, we train a convolutional neural network to estimate the gaze direction using a publicly available image dataset. Then, we use transfer learning with a small dataset to map the gaze direction onto pre-defined areas of interest. Models trained using this approach performed very well in leave-one-subject-out evaluation on the small dataset. We performed an additional validation of our models using the video snippets collected from participants working as an operator in the presented assembly scenario. Although the recall for the Distracted class was lower in this case, the models performed well in recognizing the areas the operator paid attention to. To the best of our knowledge, this is the first work that validated an attention recognition model using data from a setting that mimics industrial human-robot collaboration. Our findings highlight the need for validation of attention recognition solutions in such full-fledged, non-guided scenarios.

Autoren: Pooja Prajod, Matteo Lavit Nicora, Matteo Malosio, Elisabeth André

Letzte Aktualisierung: 2023-03-30 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2303.17619

Quell-PDF: https://arxiv.org/pdf/2303.17619

Lizenz: https://creativecommons.org/licenses/by-sa/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel