Neuer Datensatz für menschenzentriertes Rendering
Ein bahnbrechender Datensatz soll die Genauigkeit der menschlichen Darstellung in digitalen Medien verbessern.
― 4 min Lesedauer
Inhaltsverzeichnis
Echtistische Bilder und Videos von Menschen in verschiedenen Situationen zu erstellen, ist wichtig sowohl für Computer Vision als auch für Computer Graphics. Diese Aufgabe erfordert eine Menge Daten, die Menschen in verschiedenen Posen, Outfits und Handlungen zeigen. Viele bestehende Datensätze bieten jedoch nicht genug Vielfalt in diesen Aspekten. Das schränkt die Möglichkeiten der Forscher ein, neue Methoden zu entwickeln, die gut in realen Situationen funktionieren. Um dem entgegenzuwirken, wurde ein neuer Datensatz erstellt, um das menschzentrierte Rendering zu verbessern.
Überblick über den Datensatz
Der Datensatz enthält eine grosse Anzahl von hochqualitativen Bildern und Videos von menschlichen Schauspielern, die aus verschiedenen Blickwinkeln aufgenommen wurden. Er deckt eine vielfältige Palette an Kategorien ab, wie Bewegungsarten, Kleidungsstile, Körperformen und Interaktionen mit Objekten. Diese Variation ist entscheidend für Forscher, die Systeme erstellen möchten, die realistische Bilder und Animationen von Menschen rendern können.
Merkmale des Datensatzes
Vielfalt der Schauspieler: Der Datensatz umfasst eine breite Palette von Individuen und sorgt für eine repräsentative Abdeckung verschiedener Ethnien, Altersgruppen und Körperformen. Jeder Schauspieler wird in verschiedenen Outfits und bei mehreren Aktionen festgehalten, um den Reichtum der Daten zu maximieren.
Aktionskategorien: Der Datensatz enthält Aktionen aus dem Alltag sowie professionelle Darbietungen. So können Forscher studieren, wie Menschen sich in unterschiedlichen Kontexten bewegen.
Kleidung und Accessoires: Eine breite Sammlung von Kleidungsstücken und Accessoires ist enthalten, die verschiedene Stile, Materialien und Texturen repräsentieren. Das hilft, zu verstehen, wie verschiedene Outfits die Renderqualität beeinflussen.
Hochwertiges Erfassungssystem: Um sicherzustellen, dass die Daten von höchster Qualität sind, wird ein spezialisiertes Erfassungssystem verwendet. Es besteht aus vielen synchronisierten Kameras, die sowohl Bilder als auch Tiefeninformationen aufnehmen, wodurch detaillierte 3D-Rekonstruktionen möglich sind.
Datensammelprozess
Der Datensammelprozess war gründlich und rigoros gestaltet. Schauspieler führten ihre Aktionen in einem Studio durch, während ihre Bewegungen von mehreren Kameras aufgezeichnet wurden. Jeder Schauspieler trug mehrere Outfits, um eine grosse Datenvielfalt zu gewährleisten. Sorgfältige Planung stellte sicher, dass die aufgenommenen Darbietungen realistisch und repräsentativ für das Verhalten von Menschen im Alltag waren.
Datenannotation
Nach der Datenerfassung wurde ein detaillierter Annotierungsprozess durchgeführt. Dazu gehörte das Kalibrieren der Kameras, um konsistente Farb- und Tiefeninformationen über alle Perspektiven hinweg zu gewährleisten. Schlüsselstellen wurden am Körper der Schauspieler identifiziert, um ihre Posen und Bewegungen besser zu verstehen. Eine automatische Annotierungspipeline wurde entwickelt, um diesen Prozess zu unterstützen, damit die Daten organisiert und einfach für zukünftige Forschungen genutzt werden können.
Benchmarking
Mit dem fertigen Datensatz wurden Benchmarks erstellt, um verschiedene hochmoderne Rendering-Methoden zu bewerten. Dieser Benchmarking-Prozess ermöglicht es Forschern zu sehen, wie gut ihre Techniken in verschiedenen Aufgaben funktionieren, wie zum Beispiel das Generieren neuer Perspektiven einer Person oder das Animieren ihrer Bewegungen basierend auf unterschiedlichen Posen.
Vergleiche mit anderen Datensätzen
Der Datensatz wurde mit bestehenden menschzentrierten Datensätzen verglichen, um seine Vorteile zu verdeutlichen. Zu den Hauptunterschieden gehören die Anzahl der Schauspieler, die Vielfalt der Aktionen und die Qualität der erfassten Daten. Der neue Datensatz bietet abwechslungsreichere und realistischere Proben, was seine Nützlichkeit für Forscher erhöht.
Herausforderungen im menschzentrierten Rendering
Zu verstehen, wie man Menschen genau in computergenerierten Bildern darstellt, birgt viele Herausforderungen. Probleme wie das Erfassen nicht-starrer Bewegungen, der Umgang mit unterschiedlichen Kleidungsarten und das Sichern genauer Interaktionen mit Objekten tragen zur Komplexität der Aufgabe bei. Diese Herausforderungen anzugehen, ist entscheidend für die Entwicklung effektiver Rendering-Algorithmen.
Zukünftige Richtungen
Der Datensatz eröffnet viele Möglichkeiten für weitere Forschungen im Bereich des menschzentrierten Renderings. Zukünftige Arbeiten könnten neue Wege zur Datenannotierung, die Verbesserung der Erfassungstechniken und die Erweiterung des Datensatzes um noch mehr Variation untersuchen. Forscher werden ermutigt, den Datensatz für verschiedene Anwendungen zu nutzen, von Animation bis hin zu virtueller Realität.
Fazit
Zusammenfassend stellt der neue Datensatz einen bedeutenden Schritt im Bereich des menschzentrierten Renderings dar. Mit seiner reichen Vielfalt an Schauspielern, Aktionen und Kleidung bietet er wertvolle Ressourcen für Forscher, die realistischere menschliche Darstellungen in digitalen Medien erstellen möchten. Die mit diesem Datensatz etablierten Benchmarks werden helfen, das Verständnis zu fördern, wie man Menschen in verschiedenen Kontexten effektiv rendert. Während sich das Feld weiterentwickelt, wird dieser Datensatz eine entscheidende Rolle spielen, um die Grenzen des menschzentrierten Renderings weiter zu verschieben.
Titel: DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity Human-centric Rendering
Zusammenfassung: Realistic human-centric rendering plays a key role in both computer vision and computer graphics. Rapid progress has been made in the algorithm aspect over the years, yet existing human-centric rendering datasets and benchmarks are rather impoverished in terms of diversity, which are crucial for rendering effect. Researchers are usually constrained to explore and evaluate a small set of rendering problems on current datasets, while real-world applications require methods to be robust across different scenarios. In this work, we present DNA-Rendering, a large-scale, high-fidelity repository of human performance data for neural actor rendering. DNA-Rendering presents several alluring attributes. First, our dataset contains over 1500 human subjects, 5000 motion sequences, and 67.5M frames' data volume. Second, we provide rich assets for each subject -- 2D/3D human body keypoints, foreground masks, SMPLX models, cloth/accessory materials, multi-view images, and videos. These assets boost the current method's accuracy on downstream rendering tasks. Third, we construct a professional multi-view system to capture data, which contains 60 synchronous cameras with max 4096 x 3000 resolution, 15 fps speed, and stern camera calibration steps, ensuring high-quality resources for task training and evaluation. Along with the dataset, we provide a large-scale and quantitative benchmark in full-scale, with multiple tasks to evaluate the existing progress of novel view synthesis, novel pose animation synthesis, and novel identity rendering methods. In this manuscript, we describe our DNA-Rendering effort as a revealing of new observations, challenges, and future directions to human-centric rendering. The dataset, code, and benchmarks will be publicly available at https://dna-rendering.github.io/
Autoren: Wei Cheng, Ruixiang Chen, Wanqi Yin, Siming Fan, Keyu Chen, Honglin He, Huiwen Luo, Zhongang Cai, Jingbo Wang, Yang Gao, Zhengming Yu, Zhengyu Lin, Daxuan Ren, Lei Yang, Ziwei Liu, Chen Change Loy, Chen Qian, Wayne Wu, Dahua Lin, Bo Dai, Kwan-Yee Lin
Letzte Aktualisierung: 2023-09-30 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2307.10173
Quell-PDF: https://arxiv.org/pdf/2307.10173
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://en.wikipedia.org/wiki/Wikipedia:Contents/Human_activities
- https://en.wikipedia.org/wiki/Wikipedia:Contents/Human
- https://dna-rendering.github.io/
- https://github.com/ZhengZerong/MultiviewSMPLifyX
- https://github.com/zju3dv/EasyMocap
- https://github.com/generalizable-neural-performer/bodyfitting
- https://github.com/zju