Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Mensch-Computer-Interaktion# Künstliche Intelligenz

Information Interaktion nahtlos gestalten

Benutzer mit wichtigen Informationen in alltäglichen Situationen durch innovative Systeme verbinden.

― 9 min Lesedauer


Benutzerinteraktion mitBenutzerinteraktion mitInformationen optimierenNutzer mit Informationen umgehen.Innovative Systeme verbessern, wie
Inhaltsverzeichnis

Die Idee von "Pervasiver Augmented Reality" zielt darauf ab, dass Nutzer jederzeit leicht auf verschiedene Arten von Informationen zugreifen können. Im Alltag sind die Leute allerdings oft körperlich oder mental beschäftigt, was es schwierig macht, diese Informationen effektiv zu nutzen. Um den Nutzern zu helfen, nahtlos mit Informationen zu interagieren, müssen zukünftige Systeme schnellen und intelligenten Zugriff auf Aktionen basierend auf ihren aktuellen Situationen bieten.

Um besser zu verstehen, welche Arten von Aktionen Nutzer möglicherweise ausführen, haben wir eine Tagebuchstudie durchgeführt. Die Teilnehmer dieser Studie teilten Medien, die mit ihren beabsichtigten Aktionen verbunden waren, wie Fotos oder Sprachaufnahmen, sowie was sie mit diesen Medien tun wollten und Kontext über die Situation. Aus diesen Daten haben wir einen umfassenden Überblick über mögliche Aktionen erstellt, die Nutzer ergreifen könnten, wenn sie mit verschiedenen Arten von Informationen konfrontiert werden.

Wir haben ein System entwickelt, das grosse Sprachmodelle (LLMs) nutzt, um sensorische Eingaben zu verarbeiten und Folgeaktionen basierend auf den gegebenen Informationen vorherzusagen. Mithilfe der empirischen Daten, die wir während der Tagebuchstudie gesammelt haben, haben wir verschiedene LLM-Methoden (wie Intent-Klassifikation, In-Context-Learning und Fine-Tuning) getestet, um herauszufinden, welche für unsere Bedürfnisse am effektivsten ist. Ausserdem haben wir einen Prototyp erstellt, um Feedback von Nutzern zu sammeln, wie sie auf unsere Vorhersagen reagiert haben und welche Fehler das System gemacht hat.

Einführung in multimodale Informationen im Alltag

Der Vorstoss für "Pervasive Augmented Reality (AR)" sieht einen einfachen Zugang zu Informationen wie Text, Bildern und Geräuschen vor, wann und wo die Leute wollen. Doch in vielen Situationen sind die Nutzer mit anderen Aufgaben beschäftigt, was typische Interaktionsmethoden, wie Gesten und Sprechen, herausfordernd macht. Dadurch wird es schwierig, auf die Informationen, die sie in ihrer Umgebung sehen oder hören, zu reagieren.

Zum Beispiel könnte ein Fahrer, der ein Filmplakat bemerkt, Schwierigkeiten haben, den Filmnamen vom Plakat abzuleiten, während er gleichzeitig auf das Fahren konzentriert ist. Diese Situation zeigt, wie wichtig es ist, dass zukünftige Systeme den Aufwand minimieren, der nötig ist, um mit Informationen zu interagieren.

Typischerweise hat die Interaktion mit Informationen zwei Schritte:

  1. Informationen abrufen: Das bedeutet, auszuwählen, was man aus den verfügbaren Informationen will (wie das Lesen eines Plakats).
  2. Aktionen ausführen: Nachdem man gefunden hat, was man braucht, ist der nächste Schritt, darauf zu reagieren (wie das Suchen nach weiteren Details online).

Wir glauben, dass zukünftige Systeme in der Lage sein sollten, sensorische Eingaben gleichzeitig zu verarbeiten, ähnlich wie Menschen ihre Sinne nutzen, und Aktionen basierend auf den gefundenen Informationen vorzuschlagen. Um dies zu erreichen, müssen wir jedoch zwei Hauptprobleme angehen:

  1. Aktuelle Systeme haben Schwierigkeiten, Aktionen basierend auf kombinierten Daten aus verschiedenen Informationsarten vorzuschlagen.
  2. Es gibt nicht genügend Wissen darüber, was Nutzer mit den Informationen, die ihnen in realen Situationen begegnen, tun möchten.

Der zweite Punkt ist wichtig für das Design dieser Systeme, damit die vorgeschlagenen Aktionen praktisch und effektiv ausgeführt werden können. Frühere Studien haben sich mit den Informationsbedürfnissen mobiler Nutzer beschäftigt, jedoch nicht genug darauf fokussiert, welche Aktionen sie unternehmen, wenn sie mit Informationen in ihrer Umgebung interagieren.

Um diese Lücke zu schliessen, haben wir eine Studie durchgeführt, gefolgt von einer Tagebuchstudie, die es uns ermöglichte, Daten über die Aktionen zu sammeln, die Menschen ergreifen möchten, wenn sie mit verschiedenen Informationsarten konfrontiert werden. Anstatt nur auf Daten zurückzublicken, die bereits auf ihren Handys gespeichert sind, haben wir die Teilnehmer dazu angeregt, neue Daten sofort festzuhalten, so wie sie es in einer echten AR-Erfahrung tun würden.

In dieser Studie sammelten und dokumentierten die Teilnehmer unterschiedliche Sensorische Informationen – wie Bilder, Geräusche und Videos –, die sie beabsichtigten, zu verwenden. Diese Daten bildeten die Grundlage für unsere Analyse.

Aufbau eines Aktionsraums aus echtem Nutzerinteresse

Nachdem wir Daten von Teilnehmern über die Aktionen gesammelt hatten, die sie beabsichtigten zu ergreifen, analysierten wir ihre Antworten, um einen Entwurfsraum von Folgeaktionen zu erstellen, die auf verschiedene Arten von Informationen anwendbar sind.

Die Teilnehmer nahmen an einem Workshop teil, in dem sie Beispiele dafür teilten, wann und wie sie multimediale Informationen verwendet haben. Die Beispiele wurden genutzt, um die Tagebuchstudie der Teilnehmer zu inspirieren und zu leiten. Wir sammelten ihre Erfahrungen und gruppierten die beabsichtigten Aktionen in spezifische Kategorien.

Durch diesen Prozess identifizierten wir zwei Haupttypen von Aktionen:

  1. Allgemeine Aktionen: Breite Kategorien dessen, was Nutzer typischerweise tun möchten, wie Informationen teilen oder für später speichern.
  2. Spezifische Aktionen: Detailliertere Aktionen, die unter die allgemeinen Kategorien fallen.

Zum Beispiel könnten unter der allgemeinen Kategorie Teilen spezifische Aktionen das Versenden einer SMS oder das Posten in sozialen Medien umfassen.

Bei der Analyse der Daten stellten wir fest, dass viele Nutzer mehrere Aktionen durchführen wollten, wenn sie Informationen begegneten. Zum Beispiel könnte ein Teilnehmer ein Bild eines Produkts machen, beschliessen, es einem Freund zu schicken, und es dann für später aufbewahren.

Die Erkenntnisse aus der Tagebuchstudie halfen uns, einen strukturierten Ansatz zur Vorhersage von Folgeaktionen basierend auf den empfangenen sensorischen Informationen zu entwickeln.

Unsere Methode zur Vorhersage von Aktionen

Wir haben ein System entwickelt, das eingehende sensorische Informationen verarbeitet und die nächsten Aktionen des Nutzers basierend auf unseren Erkenntnissen aus dem Entwurfsraum vorhersagt. Das System folgt drei Hauptschritten:

  1. Umwandlung sensorischer Daten: Es wandelt Rohdaten aus Bildern und Geräuschen in strukturierten Text um, indem es bestehende Technologien verwendet, die visuelle Elemente analysieren und beschreiben sowie Sprache erkennen können.
  2. Logisches Denken mit den Daten: Das System verwendet die Chain-of-Thought (CoT) Prompting-Methodologie, die dem Modell hilft, durch die Informationen zu denken, bevor es Vorhersagen trifft.
  3. Vorhersage von Aktionen: Schliesslich sagt das System voraus, welche Aktionen der Nutzer basierend auf dem strukturierten Text und der zuvor durchgeführten Argumentation unternehmen könnte.

Für visuelle Informationen identifiziert das System Elemente in Fotos oder Videos und beschreibt, was sie darstellen. Es erkennt auch jeglichen Text, der möglicherweise vorhanden ist. Für Audioinformationen kann das System Geräusche klassifizieren und Sprache in Text transkribieren.

Durch die Verwendung kontextueller Daten – wie wo der Nutzer ist oder was er gerade gemacht hat – kann unser System seine Vorhersagen verbessern. Kontextuelle Informationen helfen zu verstehen, wie der Nutzer mit den Informationen, die ihm begegnen, interagieren möchte.

Bewertung unseres Systems

Um herauszufinden, wie gut unser Ansatz funktioniert, haben wir verschiedene LLM-Techniken getestet. Die Optionen umfassten traditionelle Intent-Klassifizierer, das Fine-Tuning bestehender Modelle und In-Context-Learning-Methoden. Jede Methode hat ihre Vor- und Nachteile, und wir wollten herausfinden, welche die besten Ergebnisse für unsere Vorhersagen liefern würde.

Intent-Klassifizierer

Diese Methode klassifiziert Aktionen basierend auf trainierten Modellen, benötigt aber oft kleinere Datensätze. Für unsere Zwecke haben wir ein vorab trainiertes Modell angepasst, um unseren spezifischen Bedürfnissen gerecht zu werden, sodass wir Aktionen basierend auf den Eingaben der Nutzer effizient kategorisieren konnten.

In-Context-Learning

Diese Methode gibt dem Modell einige Beispiele zum Lernen, ohne dass interne Parameter drastisch angepasst werden müssen. Diese Flexibilität kann es dem Modell erleichtern, sich schnell an neue Aufgaben anzupassen.

Fine-Tuning

Fine-Tuning beinhaltet die Anpassung der Parameter des Modells, um besser auf spezifische Aufgaben zu passen. Diese Methode kann die Leistung verbessern, erfordert jedoch eine grössere Menge an Trainingsdaten, um erfolgreich zu sein.

Durch unsere Bewertungen fanden wir heraus, dass In-Context-Learning mit CoT-Prompts die besten Ergebnisse lieferte und eine hohe Genauigkeit bei der Vorhersage von Nutzeraktionen erzielte. Dies zeigte, dass die Kombination aus klarem Denken und starken Beispielen zu einer besseren Leistung führen kann.

Nutzerfeedback zum Prototyp

Nachdem wir ein funktionierendes System hatten, erstellten wir eine Prototyp-Anwendung, um Nutzerfeedback zu sammeln. Die Teilnehmer wurden eingeladen, in einer kontrollierten Umgebung, die gängigen sozialen Settings wie Cafés ähnelt, mit dem Prototyp zu interagieren. Sie sollten mehrere Aufgaben mit dem Prototyp erfüllen und ihre Gedanken laut äussern.

Die Teilnehmer fanden es angenehm, das System zu nutzen, und fanden es einfach zu navigieren. Sie schätzten das Potenzial zur Reduzierung des Aufwands, der für die Durchführung von Aufgaben nötig ist, und hoben hervor, wie dies ihre Interaktion mit zukünftigen AR-Oberflächen verändern könnte.

Allerdings sagte das System nicht immer die beabsichtigten Aktionen korrekt voraus. Nutzer nutzten oft die Option, um mehr verfügbare Aktionen zu sehen, wenn die Vorhersagen nicht stimmten. Einige Nutzer fühlten sich von der Anzahl der präsentierten Optionen überwältigt und schlugen vor, die Auswahl zu vereinfachen oder Aktionen zu kategorisieren, um die Nutzererfahrung zu verbessern.

Die Teilnehmer gaben auch Einblicke, wie die Formulierung der Handlungsaufforderungen klarer gestaltet werden könnte. Viele dachten, dass Beispiele, die das Ergebnis jeder Aktion zeigen, helfen könnten zu verdeutlichen, was sie vom System erwarten können.

Reflexion über unsere Erkenntnisse

Im Kern unserer Studie stand die Erforschung der Aktionen, die Menschen unternehmen, wenn sie Informationen in ihrem Alltag begegnen. Die Tagebuchstudie ermöglichte es uns, echte Momente einzufangen, in denen Aktionen durch echte Interaktionen ausgelöst wurden.

Unser Entwurfsraum umfasste sieben allgemeine Kategorien von Aktionen, die jeweils in spezifische Aktionen unterteilt wurden. Durch die Synthese dieser Informationen konnten wir einen strukturierten Ansatz entwickeln, um vorherzusagen, wie Nutzer zukünftig mit Informationen interagieren könnten.

Während die Technologie weiter voranschreitet, werden sich auch die Wege verändern, wie Menschen mit Informationen interagieren, die durch AR und andere Plattformen präsentiert werden. Die Flexibilität und Reaktionsfähigkeit des Ansatzes auf Nutzerfeedback wird sicherstellen, dass unser System relevant bleibt, während neue Technologien entwickelt werden.

Wir sind überzeugt, dass unsere Erkenntnisse das Design zukünftiger interaktiver Systeme erheblich beeinflussen können. Wir hoffen, unsere Methoden weiter zu verfeinern, während wir mehr Einblicke in die Nutzerinteraktionen mit multimodalen Informationen gewinnen.

Originalquelle

Titel: OmniActions: Predicting Digital Actions in Response to Real-World Multimodal Sensory Inputs with LLMs

Zusammenfassung: The progression to "Pervasive Augmented Reality" envisions easy access to multimodal information continuously. However, in many everyday scenarios, users are occupied physically, cognitively or socially. This may increase the friction to act upon the multimodal information that users encounter in the world. To reduce such friction, future interactive interfaces should intelligently provide quick access to digital actions based on users' context. To explore the range of possible digital actions, we conducted a diary study that required participants to capture and share the media that they intended to perform actions on (e.g., images or audio), along with their desired actions and other contextual information. Using this data, we generated a holistic design space of digital follow-up actions that could be performed in response to different types of multimodal sensory inputs. We then designed OmniActions, a pipeline powered by large language models (LLMs) that processes multimodal sensory inputs and predicts follow-up actions on the target information grounded in the derived design space. Using the empirical data collected in the diary study, we performed quantitative evaluations on three variations of LLM techniques (intent classification, in-context learning and finetuning) and identified the most effective technique for our task. Additionally, as an instantiation of the pipeline, we developed an interactive prototype and reported preliminary user feedback about how people perceive and react to the action predictions and its errors.

Autoren: Jiahao Nick Li, Yan Xu, Tovi Grossman, Stephanie Santosa, Michelle Li

Letzte Aktualisierung: 2024-05-06 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2405.03901

Quell-PDF: https://arxiv.org/pdf/2405.03901

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel