Bewertung der Qualität von KI-generierten Videoinhalten
Die Qualität von KI-generierten Videos bewerten, um die Content-Erstellung zu verbessern.
― 6 min Lesedauer
Inhaltsverzeichnis
- Die Herausforderung der Videoqualitätsbewertung
- Erstellung eines neuen Datensatzes
- Bewertung der Videoqualität
- Subjektive Bewertung
- Objektive Bewertung
- Das neue Qualitätsbewertungsmodell
- Merkmals Extraktion
- Merkmals Fusion
- Ergebnisse und Erkenntnisse
- Räumliche Qualitätsbewertung
- Zeitliche Qualitätsbewertung
- Text-zu-Video-Ausrichtungsbewertung
- Fazit
- Originalquelle
In den letzten Jahren hat das Feld der künstlichen Intelligenz (KI) grosse Fortschritte beim automatischen Erstellen von Videoinhalten aus Textbeschreibungen gemacht. Dieser Prozess wird als Text-zu-Video (T2V) Generation bezeichnet. Mit dem Wachstum dieser Technologie wird es immer wichtiger, die Qualität der produzierten Videos zu bewerten. Das ist besonders wichtig für von KI generierte Inhalte, da diese Videos oft ganz andere Qualitätsprobleme haben als traditionelle Videoinhalte.
Die Herausforderung der Videoqualitätsbewertung
Wenn es um Videoqualität geht, spielen mehrere Faktoren eine Rolle. Bei KI-generierten Inhalten kann die Qualität wegen verschiedener Verzerrungen, die auftreten können, erheblich schwanken. Diese Verzerrungen können zu Unschärfe, unnatürlichen Bewegungen und Inkonsistenzen zwischen dem, was im Text beschrieben wird, und dem, was im Video gezeigt wird, führen.
Die Qualität dieser Videos zu bewerten, ist entscheidend, um zu verstehen, wie gut die Technologie funktioniert und um die Methoden zu verbessern, die zu ihrer Erstellung verwendet werden. Allerdings hat sich die Erstellung zuverlässiger Messungen für die Videoqualität als herausfordernde Aufgabe erwiesen. Die bestehenden Methoden reichen oft nicht aus, um die einzigartigen Merkmale von KI-generierten Videos genau zu erfassen.
Erstellung eines neuen Datensatzes
Um dieses Problem anzugehen, wurde ein neuer Datensatz entwickelt, um KI-generierte Videos zu bewerten. Dieser Datensatz besteht aus einer grossen Sammlung von Videos, die von verschiedenen Text-zu-Video-Modellen unter Verwendung einer Vielzahl von Textanweisungen erstellt wurden. Ziel war es, eine vielfältige Auswahl an Videos zu sammeln, die verschiedene Themen und Szenen abdecken.
Der Datensatz umfasst 2.808 Videos, die mit sechs verschiedenen Modellen generiert wurden. Jedes Video wurde basierend auf 468 sorgfältig ausgewählten Textanweisungen erstellt, die reale Szenarien widerspiegeln sollten. Die produzierten Videos werden dann anhand von drei Hauptkriterien bewertet: Räumliche Qualität (wie die visuellen Elemente aussehen), zeitliche Qualität (wie die Bewegung aussieht) und Text-zu-Video-Ausrichtung (wie gut das Video zur Textbeschreibung passt).
Bewertung der Videoqualität
Zur Bewertung der Videos im Datensatz wurden sowohl subjektive als auch objektive Bewertungen eingesetzt.
Subjektive Bewertung
Bei der subjektiven Bewertung haben Personen ihre Bewertungen für die Videos basierend auf den drei Qualitätskriterien abgegeben. Die Teilnehmer haben die Videos angesehen und sie in Aspekten wie Klarheit, Bewegungs kontinuierlichkeit und ob die visuellen Elemente mit den gegebenen Textanweisungen übereinstimmten, bewertet. Dieser Schritt ist wichtig, da er die menschliche Wahrnehmung erfasst, die oft nuancierter ist als das, was automatisierte Systeme bewerten können.
Objektive Bewertung
In der objektiven Bewertung wurden bestehende Qualitätsmetriken auf den Datensatz angewendet, um ihre Effektivität zu testen. Diese Metriken messen die Qualitätseigenschaften basierend auf automatisierten Prozessen, die unter anderem visuelle Merkmale, Bewegungs konsistenz und die Übereinstimmung mit dem Text analysieren können. Die Ergebnisse zeigten jedoch, dass viele dieser Standardmetriken nicht gut geeignet waren für die Komplexität von KI-generierten Videos. Sie scheiterten oft daran, die Qualität, die von menschlichen Zuschauern wahrgenommen wird, genau widerzuspiegeln.
Das neue Qualitätsbewertungsmodell
Um die Einschränkungen der bestehenden Methoden zu überwinden, wurde ein neues Modell zur Bewertung der Videoqualität vorgeschlagen. Dieses Modell ist so konzipiert, dass es gleichzeitig die räumliche Qualität, die zeitliche Qualität und die Text-zu-Video-Ausrichtung bewertet.
Merkmals Extraktion
Das Modell nutzt verschiedene Merkmale, die aus den Videos extrahiert wurden, um die Qualität zu bewerten. Zum Beispiel:
- Räumliche Merkmale: Diese Merkmale erfassen die visuellen Elemente einzelner Bilder. Das Modell berücksichtigt nicht nur das Gesamtbild, sondern auch Details wie Schärfe und Objektklarheit.
- Zeitliche Merkmale: Diese Merkmale bewerten, wie gut die Bewegung im Video fliesst. Das ist besonders wichtig, um die Kontinuität von Aktionen zu bewerten und wie reibungslos sie von einem Bild zum nächsten übergehen.
- Ausrichtungsmerkmale: Hier misst das Modell, wie gut der Videoinhalt mit der Textbeschreibung übereinstimmt. Das stellt sicher, dass die visuellen Elemente relevant und genau dem entsprechen, was der Zuschauer aus dem Text verstehen soll.
Merkmals Fusion
Sobald diese Merkmale extrahiert sind, werden sie kombiniert, um eine umfassende Sicht auf die Videoqualität zu schaffen. Dieser Fusionsprozess verbessert die Darstellung der Qualitätsinformationen und ermöglicht eine gründlichere Bewertung. Das Modell nutzt im Grunde alle gesammelten Informationen, um Qualitätswerte für räumliche, zeitliche und ausrichtungsbezogene Aspekte zu erzeugen.
Ergebnisse und Erkenntnisse
Die Leistung des neuen Qualitätsbewertungsmodells wurde mithilfe des Datensatzes bewertet und mit bestehenden Metriken verglichen. Das Modell zeigte eine deutliche Verbesserung bei der Bewertung der Videoqualität über alle drei Kriterien hinweg.
Räumliche Qualitätsbewertung
Was die räumliche Qualität betrifft, konnte das Modell verschiedene visuelle Verzerrungen, die häufig in KI-generierten Videos vorkommen, genau erfassen, wie Unschärfe und falsch ausgerichtete Objekte in Szenen. Diese Leistung übertraf die traditioneller Metriken, die oft mit diesen Problemen kämpften.
Zeitliche Qualitätsbewertung
Bei der Bewertung der zeitlichen Qualität war das neue Modell besonders gut darin, Bewegungsinkonsistenzen zu erkennen. Das war entscheidend, um Probleme wie Bildruckeln oder unnatürliche Bewegungsmuster zu bewältigen, die KI-generierte Inhalte plagen können. Durch die effektive Identifizierung dieser Fehler kann das Modell helfen, Verbesserungen in den Generierungstechniken zu leiten.
Text-zu-Video-Ausrichtungsbewertung
In Bezug auf die Übereinstimmung mit den Textanweisungen lieferte das Modell bessere Einsichten als bestehende Methoden. Es konnte aufzeigen, wo der Videoinhalt nicht mit der Beschreibung übereinstimmte, was es einfacher machte, Bereiche zu identifizieren, die verbessert werden müssen.
Fazit
Da KI-generierte Videoinhalte in verschiedenen Branchen wie Film, Werbung und Gaming weiter an Bedeutung gewinnen, kann die Wichtigkeit der Qualitätsbewertung nicht genug betont werden. Mit der Entwicklung eines speziellen Datensatzes und eines robusten Qualitätsbewertungsmodells können Stakeholder die Leistung von Video generierungstechniken besser bewerten.
Diese Initiative wirft nicht nur Licht auf die Qualität von KI-generierten Videos, sondern bietet auch Wege für zukünftige Fortschritte in der Videogenerierungstechnologie. Die Erkenntnisse aus dem Bewertungsprozess können Verbesserungen vorantreiben und letztendlich zu ansprechenderen und genaueren Videoinhalten führen, die den Erwartungen des Publikums gerecht werden.
Zusammengefasst bietet die Kombination eines umfassenden Datensatzes und eines neuen Qualitätsbewertungsmodells eine solide Grundlage für die Bewertung und Verbesserung von KI-generierten Videoinhalten. Dies ist ein notwendiger Schritt, um sicherzustellen, dass die Fortschritte in der Videogenerierung mit den visuellen und narrativen Aspekten übereinstimmen, die das Publikum sucht.
Titel: Benchmarking Multi-dimensional AIGC Video Quality Assessment: A Dataset and Unified Model
Zusammenfassung: In recent years, artificial intelligence (AI)-driven video generation has gained significant attention. Consequently, there is a growing need for accurate video quality assessment (VQA) metrics to evaluate the perceptual quality of AI-generated content (AIGC) videos and optimize video generation models. However, assessing the quality of AIGC videos remains a significant challenge because these videos often exhibit highly complex distortions, such as unnatural actions and irrational objects. To address this challenge, we systematically investigate the AIGC-VQA problem, considering both subjective and objective quality assessment perspectives. For the subjective perspective, we construct the Large-scale Generated Video Quality assessment (LGVQ) dataset, consisting of 2,808 AIGC videos generated by 6 video generation models using 468 carefully curated text prompts. We evaluate the perceptual quality of AIGC videos from three critical dimensions: spatial quality, temporal quality, and text-video alignment. For the objective perspective, we establish a benchmark for evaluating existing quality assessment metrics on the LGVQ dataset. Our findings show that current metrics perform poorly on this dataset, highlighting a gap in effective evaluation tools. To bridge this gap, we propose the Unify Generated Video Quality assessment (UGVQ) model, designed to accurately evaluate the multi-dimensional quality of AIGC videos. The UGVQ model integrates the visual and motion features of videos with the textual features of their corresponding prompts, forming a unified quality-aware feature representation tailored to AIGC videos. Experimental results demonstrate that UGVQ achieves state-of-the-art performance on the LGVQ dataset across all three quality dimensions. Both the LGVQ dataset and the UGVQ model are publicly available on https://github.com/zczhang-sjtu/UGVQ.git.
Autoren: Zhichao Zhang, Xinyue Li, Wei Sun, Jun Jia, Xiongkuo Min, Zicheng Zhang, Chunyi Li, Zijian Chen, Puyi Wang, Zhongpeng Ji, Fengyu Sun, Shangling Jui, Guangtao Zhai
Letzte Aktualisierung: 2024-12-25 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2407.21408
Quell-PDF: https://arxiv.org/pdf/2407.21408
Lizenz: https://creativecommons.org/licenses/by-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.