Fortschritte bei der Pupillennachverfolgung mit Event-Kameras
Die Verfolgung der Augenbewegungen mit Event Kameras verbessert das Verständnis der Augenbewegungen.
― 6 min Lesedauer
Inhaltsverzeichnis
Sakkaden sind schnelle Augenbewegungen, die auftreten, wenn jemand seine Aufmerksamkeit von einer Sache auf eine andere lenkt. Diese Bewegungen können sehr schnell sein, manchmal sogar schneller als ein Blinzeln. Sakkaden können Geschwindigkeiten von bis zu 700 Grad pro Sekunde erreichen, besonders wenn die Augen ein grösseres Gebiet abdecken. Forscher haben Sakkaden untersucht, um verschiedene neurologische Bedingungen besser zu verstehen. Ein wichtiger Teil des Studiums dieser Bewegungen ist das genaue Verfolgen der Pupillenposition, da dies hilft herauszufinden, wohin jemand schaut.
Normale Kameras haben oft Probleme, mit der Geschwindigkeit dieser Augenbewegungen Schritt zu halten, was zu Unschärfe und Verzögerungen führen kann. Event-Kameras bieten eine Lösung, indem sie Veränderungen in der visuellen Szene direkt erfassen. Das ermöglicht ein schnelles und klares Verfolgen von Augenbewegungen. In diesem Artikel präsentieren wir eine Möglichkeit, Pupillenbewegungen mit Event-Kameras und einem speziellen Modell namens YOLOv8 zu verfolgen, das effektiv zum Erkennen von Objekten ist.
Bedeutung der Pupillenerfassung
Die Pupillenerfassung ist wichtig, um psychische Gesundheit und Neurologische Erkrankungen wie Schizophrenie, Gehirnerschütterungen und Parkinson besser zu verstehen. Veränderungen in Sakkaden können subtile Veränderungen im Gehirn anzeigen, besonders bei älteren Erwachsenen. Um die Pupillenerfassung für Diagnosen und Forschung nützlich zu machen, müssen wir spezifische Marker für Augenbewegungen identifizieren, wie zum Beispiel, wie schnell sich die Pupille bewegt.
Die automatische Verfolgung der Pupille kann in Bereichen wie Mensch-Computer-Interaktion (HCI), virtueller Realität (VR) und erweiterter Realität (XR) helfen. Diese Technologie ermöglicht es Forschern, zu analysieren, wie die Pupille über die Zeit reagiert, was zu besseren Einblicken in psychologische Zustände führt. Kürzlich haben Studien versucht, die Pupillenerfassung zu verbessern, die im Wesentlichen in zwei Typen fallen: Verfolgung aus der Ferne (remote eye tracking) und Verfolgung, die nahe am Auge erfolgt (near-eye tracking). Für effektive Verfolgung im Alltag sind Werkzeuge wie Event-Kameras unerlässlich.
Vorteile von Event-Kameras
Event-Kameras haben wegen ihrer Fähigkeit, Bilder mit sehr hohen Geschwindigkeiten zu erfassen, an Popularität gewonnen. Sie funktionieren, indem sie Veränderungen im Licht an jedem Pixel aufzeichnen, was bedeutet, dass sie schnelle Bewegungen besser handhaben können als herkömmliche Kameras. Event-Kameras bieten einen hohen Dynamikbereich, niedrige Latenz und eine hohe zeitliche Auflösung. Da sie nur Veränderungen aufzeichnen, können sie die Privatsphäre der Nutzer wahren, indem sie keine detaillierten Informationen über die Iris sammeln, es sei denn, jemand versucht, diese wiederherzustellen.
Obwohl Forscher Techniken entwickelt haben, um die Privatsphäre bei der Nutzung von Event-Kameras zu schützen, könnten einige sensible Informationen immer noch aus den Daten abgerufen werden. Methoden wie Ereignisverschlüsselung und -scrambling werden untersucht, um den Schutz der Privatsphäre zu verbessern.
Frühere Arbeiten zur Pupillenerfassung
Frühe Versuche, Pupillen zu verfolgen, verwendeten grundlegende Computer vision und Machine Learning-Techniken. Viele dieser Studien basierten auf herkömmlichen Kamerasystemen und integrierten manchmal sogar nah-infrarotes Licht für eine bessere Verfolgung. Neuere Ansätze zielen darauf ab, Event-Kameras mit modernen Computer vision-Techniken zu kombinieren, wie zum Beispiel das Umwandeln von Ereignissen in Videos, damit sie mit Deep-Learning-Algorithmen kompatibel sind. YOLOv8 ist ein solches Werkzeug, das helfen kann, Pupillen effektiv zu erkennen.
Mehrere Studien haben sich darauf konzentriert, Methoden zur Pupillenerfassung zu entwickeln. Zum Beispiel baute eine Studie eine grosse Datenbank auf, um Algorithmen zu trainieren, die Pupillen mithilfe einer Mischung aus Event- und regulären Bildern erkennen können. Ein anderer Forschungsansatz entwickelte eine Methode, die Ereignisse in Echtzeit verarbeitet und so eine schnelle Pupillenerfassung selbst bei schnellen Augenbewegungen ermöglicht.
Wie die Pupillenerfassung funktioniert
Um die Pupille mit modernen Algorithmen wie YOLOv8 zu verfolgen, müssen wir die Event-Daten richtig aufbereiten. Dazu gehört, die Daten von Event-Kameras in ein Format zu transformieren, das diese Algorithmen verstehen können. Wir verwandeln die Ereignisse in 2D-Rahmen basierend auf Lichtänderungen über die Zeit. Diese Methode ermöglicht es uns, wichtige Zeitinformationen beizubehalten, während wir Datenverluste bei schnellen Bewegungen vermeiden.
Event-Kameras können theoretisch extrem hohe Bildraten erreichen, was sie effektiv macht, um schnelle Bewegungen festzuhalten. Unsere Methode erstellt Rahmen mit 100 Bildern pro Sekunde, indem wir Ereignisse über kurze Zeiträume sammeln. Das hilft, wichtige Details im Auge zu behalten, die traditionelle Kameras möglicherweise übersehen.
Training des YOLOv8-Modells
Wir haben die erzeugten Rahmen von Event-Kameras verwendet, um das YOLOv8-Modell zur Pupillenerfassung zu trainieren. Die Daten, die wir gesammelt haben, umfassten Event-Daten von mehreren Teilnehmern, die an verschiedenen Augenbewegungssitzungen teilnahmen. Wir verarbeiteten diese Daten, um ein vielfältiges Set an Rahmen für das Modell zu erstellen.
YOLOv8 ist bekannt für seine Geschwindigkeit und Genauigkeit, was es zu einer geeigneten Wahl für Aufgaben wie die Pupillenerfassung macht. Das Modell wurde auf einer leistungsstarken Grafikprozessor-Einheit (GPU) trainiert, wobei eine Methode namens AdamW verwendet wurde, um die Leistung zu optimieren.
Ergebnisse und Leistung
Wir haben die Leistung mehrerer Varianten des YOLOv8-Modells in der Pupillenerfassung bewertet. Die Modelle wurden auf ihre Genauigkeit und Fähigkeit, Pupillen zu erkennen, getestet. Eines der kleineren Modelle (YOLOv8n) schnitt aussergewöhnlich gut ab und zeigte eine hohe Genauigkeit bei der Identifizierung von Pupillen mit einer niedrigen Rate an Fehlalarmen. Auch andere Modelle schnitten gut ab, aber die grösseren hatten eine etwas höhere Komplexität.
Wir haben verschiedene Metriken betrachtet, um zu verstehen, wie gut jedes Modell abgeschnitten hat. Das YOLOv8n erzielte die besten Werte für Genauigkeit und Präzision, aber seine Fähigkeit, jede Pupille zu erkennen, war etwas niedriger als die von grösseren Modellen. Das bedeutet, dass es zwar insgesamt gut abschnitt, möglicherweise jedoch einige Pupillenbewegungen verpasst, die für bestimmte Anwendungen wichtig sind.
Herausforderungen und zukünftige Arbeiten
Trotz unseres Erfolgs gab es Herausforderungen, insbesondere beim Testen unseres Modells an verschiedenen Datensätzen. Da wir uns auf Nahaufnahmen konzentrierten, schnitt das Modell bei Fern-Datensätzen nicht so gut ab, wo die Pupille verdeckt sein konnte. Um dies zu verbessern, planen wir, mehr Fernaugen-Daten zu sammeln und Techniken zu integrieren, die sich auf wichtige Merkmale im Auge konzentrieren.
Während das YOLOv8n-Modell eine grossartige Leistung zeigte, deutet seine niedrigere Rückrufrate darauf hin, dass es in bestimmten Situationen möglicherweise nicht jede Pupillenbewegung erfasst. Das ist kritisch für Anwendungen, bei denen jede Erkennung entscheidend ist.
Fazit
Unsere Studie hat erfolgreich demonstriert, wie man Pupillen mit Event-Kameras und maschinellen Lernmodellen verfolgen kann. Indem wir Daten von Event-Kameras in Formate umwandelten, die Algorithmen nutzen können, gelang es uns, Probleme zu reduzieren, die oft mit herkömmlichen Verfolgungsmethoden verbunden sind. Unsere Ergebnisse zeigen, dass Event-Kameras sehr effektiv sind, um Augenbewegungen zu verfolgen, insbesondere in Anwendungen, die schnelle Reaktionen erfordern.
In Zukunft glauben wir, dass die Nutzung von Event-Kameras zur Analyse von Augenbewegungen zu Durchbrüchen beim Verständnis von Kognition und der Diagnose neurologischer Erkrankungen führen könnte. Die Möglichkeiten, die vor uns liegen, sind vielversprechend, und weitere Forschung könnte den Weg für bessere, nicht-invasive Diagnosetools ebnen.
Titel: A Framework for Pupil Tracking with Event Cameras
Zusammenfassung: Saccades are extremely rapid movements of both eyes that occur simultaneously, typically observed when an individual shifts their focus from one object to another. These movements are among the swiftest produced by humans and possess the potential to achieve velocities greater than that of blinks. The peak angular speed of the eye during a saccade can reach as high as 700{\deg}/s in humans, especially during larger saccades that cover a visual angle of 25{\deg}. Previous research has demonstrated encouraging outcomes in comprehending neurological conditions through the study of saccades. A necessary step in saccade detection involves accurately identifying the precise location of the pupil within the eye, from which additional information such as gaze angles can be inferred. Conventional frame-based cameras often struggle with the high temporal precision necessary for tracking very fast movements, resulting in motion blur and latency issues. Event cameras, on the other hand, offer a promising alternative by recording changes in the visual scene asynchronously and providing high temporal resolution and low latency. By bridging the gap between traditional computer vision and event-based vision, we present events as frames that can be readily utilized by standard deep learning algorithms. This approach harnesses YOLOv8, a state-of-the-art object detection technology, to process these frames for pupil tracking using the publicly accessible Ev-Eye dataset. Experimental results demonstrate the framework's effectiveness, highlighting its potential applications in neuroscience, ophthalmology, and human-computer interaction.
Autoren: Khadija Iddrisu, Waseem Shariff, Suzanne Little
Letzte Aktualisierung: 2024-10-07 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2407.16665
Quell-PDF: https://arxiv.org/pdf/2407.16665
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.