Inhalte für Augmented Reality mit KI erstellen
Eine Studie zur Integration von KI-generierten Inhalten in AR-Systeme.
― 7 min Lesedauer
Inhaltsverzeichnis
Augmented Reality (AR) verbindet die reale Welt mit digitalen Inhalten. Es fügt digitale Elemente zu dem hinzu, was wir in unserer physischen Umgebung sehen. AR kann auf verschiedene Arten erlebt werden: durch Projektoren, die Bilder auf Oberflächen projizieren, durch Head-Mounted Displays, die Nutzer auf dem Kopf tragen, oder durch tragbare Geräte wie Smartphones. Jedes Display hat seine Vor- und Nachteile für unterschiedliche Aufgaben.
Derzeit erfordert die Erstellung von Inhalten für AR, wie Bilder und Texte, normalerweise menschlichen Aufwand. Viele nutzen Tools wie Unity für 3D-Modellierung oder Skripting für Animationen. Fortschritte in der Künstlichen Intelligenz (KI) haben jedoch zu Software geführt, die diese Arten von Inhalten automatisch generieren kann. Der Aufstieg von KI-generiertem Inhalt (AIGC) bietet neue Möglichkeiten, es in AR-Umgebungen zu nutzen.
Dieses Papier beleuchtet, wie wir AR gestalten können, während wir KI nutzen, um visuelle und textuelle Inhalte automatisch zu erstellen. Es wird eine Studie vorgestellt, in der wir ein Prototyp-System namens "GenerativeAIR" gebaut haben. Dieses System kombiniert AIGC mit verschiedenen AR-Displaymethoden. Wir haben Erkenntnisse durch Fokusgruppendiskussionen gewonnen, die Designüberlegungen und mögliche Anwendungen der Kombination von AIGC mit AR aufzeigen.
Verständnis von AR und KI
AR dient dazu, die physische und digitale Welt zusammenzubringen. Im Gegensatz zur Virtual Reality (VR), die den Nutzer in einen völlig virtuellen Raum eintauchen lässt, erweitert AR das, was bereits vorhanden ist. Es gibt drei Haupttypen von Displays:
- Spatial Augmented Reality (SAR): Diese Methode beleuchtet reale Oberflächen und ermöglicht es den Nutzern, digitale Elemente in ihrer Umgebung zu sehen.
- Head-Mounted Display (HMD): Nutzer tragen diese Geräte, um digitale Informationen direkt vor ihren Augen zu sehen.
- Hand-Held Display (HHD): Bei diesem Ansatz werden Smartphones oder Tablets zur Anzeige von AR-Inhalten verwendet.
Jede Methode hat ihre Vorteile und Herausforderungen. Zum Beispiel, während SAR gemischte Erlebnisse schaffen kann, wirft es Datenschutzprobleme auf, da jeder in der Nähe sehen kann, was angezeigt wird.
Typischerweise erfordert die Erstellung von AR-Inhalten, wie Bilder und Texte, menschlichen Einfluss. Heute kann KI jedoch diese Rolle übernehmen, indem sie Inhalte automatisch generiert, wodurch die Grenze zwischen maschineller und menschlicher Kreativität verschwommener wird. Tools wie GPT-3 können Texte erstellen, während Stable Diffusion Bilder schnell generiert.
Trotz des Potenzials, AIGC mit AR zu kombinieren, wird den Designaspekten nicht viel Aufmerksamkeit geschenkt, besonders im Vergleich zu Diskussionen über KI in anderen Bereichen. Dieses Papier zielt darauf ab, diese Lücke zu schliessen, indem es diskutiert, wie man AIGC effektiv in AR-Systeme integriert.
Prototypenentwicklung
Um zu starten, haben wir einen Prototyp namens "GenerativeAIR" entwickelt, der Generative KI mit AR-Displays verbindet. Das System verfügt über Software, die zwei multimodale generative KI-Modelle nutzt, und Hardware, die drei verschiedene Arten von AR-Displays umfasst. Wir haben uns auf Spracheingabe konzentriert, da sie einen natürlichen Weg bietet, wie Nutzer mit dem System interagieren können.
So funktioniert es:
- Nutzer sprechen in ein Mikrofon, und ihre Sprache wird in Text umgewandelt.
- Dieser Text wird dann an KI-Modelle gesendet, die entsprechende Bilder und zusätzlichen Text generieren.
- Die generierten Inhalte werden auf verschiedenen AR-Geräten angezeigt.
Die in unserem Prototyp verwendeten Geräte sind der Samsung Freestyle Projektor für SAR, HoloLens 2 für HMD und OnePlus 10 Pro für HHD.
Wir wollten ein System schaffen, das sowohl intuitiv als auch informativ ist. Um dies zu erreichen, haben wir uns für Spracheingabe entschieden, da die meisten Menschen Zugang zu Smartphones haben. Das System verwendet Googles API für Spracherkennung, und die KI-Modelle arbeiten aus der Cloud, nicht auf einzelnen Geräten, was zu einer kurzen Verzögerung bei der Inhaltserstellung führt.
Fokusgruppenmethode
Um Feedback zu sammeln, haben wir Teilnehmer in Fokusgruppen interviewt. Jede Gruppensitzung dauerte etwa 80 Minuten und umfasste zehn Personen mit unterschiedlichen beruflichen Hintergründen, wie Forscher und Fachkräfte im Design- und Technologiebereich. Die Teilnehmer hatten umfangreiche Erfahrungen mit KI oder AR.
Die Diskussionen behandelten zwei Hauptfragen:
- Welche wichtigen Funktionen sollten bei der Vergleich von AIGC + AR mit verwandten Technologien berücksichtigt werden?
- Was sollten Entwickler im Hinterkopf behalten, wenn sie AIGC- und AR-Systeme erstellen?
Während dieser Interviews durften die Teilnehmer frei mit dem GenerativeAIR-Prototyp interagieren und ihre Gedanken und Erfahrungen teilen.
Ergebnisse und Diskussion
Bedeutung der Systemmerkmale
Wir stellten fest, dass die Teilnehmer klare Meinungen zu den Stärken und Schwächen der Kombination von AIGC mit AR im Vergleich zu anderen Technologien hatten.
Für die Display-Leistung waren sich die meisten einig, dass AR im Allgemeinen überlegen ist zu herkömmlichen Bildschirmen, da es eine interaktive Dimension hinzufügt. Einige Teilnehmer merkten jedoch an, dass AR tendenziell kostspieliger ist und eine geringere Qualität aufweisen kann. Ein Beispiel, das geteilt wurde, kam von einem Teilnehmer, der das Spiel Pokémon GO mochte, aber fand, dass die digitalen Kreaturen nicht immer gut mit ihrer Umgebung harmonierten.
Bei der Inhaltserstellung waren sich alle Teilnehmer einig, dass generative KI Menschen in Bezug auf Geschwindigkeit und Komplexität übertrifft. Viele erkannten, wie generative KI Aufgaben wie Programmierung und kreative Medienerstellung mühelos erleichtern könnte. Die Meinungen über die Genauigkeit der KI-generierten Inhalte im Vergleich zu menschlich erstellten Arbeiten variierten jedoch. Während einige die Ergebnisse beeindruckend fanden, hatten andere das Gefühl, dass maschinengenerierte Inhalte nicht immer ihren Erwartungen entsprachen.
Wichtige Designüberlegungen
Die Teilnehmer teilten verschiedene Ideen zur Entwicklung von AIGC + AR-Systemen und identifizierten spezifische Displayformen. Zum Beispiel wurden mobile Geräte als vielseitiger und zugänglicher im Vergleich zu stationären Displays angesehen. Es wurden jedoch Herausforderungen für tragbare Geräte angesprochen, insbesondere bezüglich der Grösse von Text und Bildern, wenn Nutzer in Bewegung sind.
Datenschutz war ein weiteres bedeutendes Anliegen. Die Teilnehmer wünschten sich Systeme, die die Sichtbarkeit von Inhalten je nach Kontext und Benutzererlaubnissen anpassen können. Sie hoben die Notwendigkeit intelligenter Systeme hervor, die diese Faktoren erkennen könnten.
Ausserdem wurden Unterschiede zwischen 2D- und 3D-Inhalten festgestellt. Viele waren der Ansicht, dass 3D-Visualisierungen Tiefe und Immersion hinzufügen, aber einige äusserten Unbehagen aufgrund von Übelkeit und bevorzugten 2D-Darstellungen.
Erkundung des Designraums
Wir fassten das Feedback in drei Hauptkategorien für das Design zusammen: Nutzer, Funktion und Umgebung. Jede Kategorie repräsentiert wichtige Aspekte, die für interaktive Systeme berücksichtigt werden sollten.
Nutzer-Funktionsdesign
Das System sollte auf verschiedene Bedürfnisse eingehen, indem es unterschiedliche Funktionen anbietet. Dazu gehört die Erkennung des Benutzerverhaltens, um hilfreiche visuelle Unterstützung zu bieten und personalisierte Lifelog-Visualisierungen mithilfe persönlicher Daten zu generieren.
Nutzer-Umgebungsdesign
Das Feedback aus der Umgebung spielt eine wichtige Rolle dabei, wie das System Inhalte präsentiert. Verschiedene Szenarien wie Innen- oder Aussenbereiche müssen berücksichtigt werden, um die Benutzererfahrung zu verbessern.
Nutzer-Nutzer-Design
Das Design sollte Unterschiede in den Benutzerbedürfnissen berücksichtigen, wie etwa diejenigen, die AR für Präsentationen im Vergleich zu Beobachtungen nutzen. Zum Beispiel könnten Präsentierende Funktionalität und Datenschutz priorisieren, während Beobachter Immersion und Verständnis anstreben.
Potenzielle Anwendungen
Wir identifizierten mehrere vielversprechende Anwendungen für GenerativeAIR:
- Echtzeit-Generierung kreativer Medien, die es Nutzern ermöglichen, mit digitalen Inhalten zu interagieren.
- Verbesserung von Lifelog-Erfahrungen durch kontextuelle Informationen zu festgehaltenen Momenten.
- Mehrbenutzer-Zusammenarbeit, bei der die Sichtbarkeit von Inhalten basierend auf Benutzererlaubnissen gesteuert wird.
Einschränkungen und zukünftige Arbeiten
Obwohl diese Studie neue Möglichkeiten eröffnet, bringt der Prototyp Einschränkungen mit sich. Derzeit generiert er nur 2D-Bilder. Zukünftige Arbeiten könnten die Fähigkeit zur 3D-Inhaltserstellung und die Verbesserung von Echtzeit-Interaktionen umfassen.
Der Umgang mit Datenschutz und Berechtigungen in Mehrbenutzereinstellungen muss ebenfalls angesprochen werden, insbesondere in kollaborativen Umgebungen, in denen geteilte Inhalte persönliche Informationen gefährden könnten.
Diese Erkundung von AIGC + AR hebt eine bedeutende Richtung für die Integration von KI-Technologien in AR-Displays hervor und ebnet den Weg für neue Anwendungen, die die Benutzererfahrung verbessern können.
Titel: Investigating the Design Considerations for Integrating Text-to-Image Generative AI within Augmented Reality Environments
Zusammenfassung: Generative Artificial Intelligence (GenAI) has emerged as a fundamental component of intelligent interactive systems, enabling the automatic generation of multimodal media content. The continuous enhancement in the quality of Artificial Intelligence-Generated Content (AIGC), including but not limited to images and text, is forging new paradigms for its application, particularly within the domain of Augmented Reality (AR). Nevertheless, the application of GenAI within the AR design process remains opaque. This paper aims to articulate a design space encapsulating a series of criteria and a prototypical process to aid practitioners in assessing the aptness of adopting pertinent technologies. The proposed model has been formulated based on a synthesis of design insights garnered from ten experts, obtained through focus group interviews. Leveraging these initial insights, we delineate potential applications of GenAI in AR.
Autoren: Yongquan Hu, Dawen Zhang, Mingyue Yuan, Kaiqi Xian, Don Samitha Elvitigala, June Kim, Gelareh Mohammadi, Zhenchang Xing, Xiwei Xu, Aaron Quigley
Letzte Aktualisierung: 2024-07-22 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2303.16593
Quell-PDF: https://arxiv.org/pdf/2303.16593
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.