Fortschritte bei der Klanggenerierung aus Video
Ein neues Modell verbessert die Klanganpassung an visuelle Aktionen in Videos.
― 11 min Lesedauer
Inhaltsverzeichnis
Echte Sounds für menschliche Aktionen zu kreieren, ist wichtig in vielen Bereichen, wie zum Beispiel bei Soundeffekten für Filme oder virtuelle Realität Spiele. Viele aktuelle Methoden, um Sounds zu erzeugen, basieren auf der Annahme, dass das, was du in einem Video siehst, perfekt mit dem übereinstimmt, was du hörst. Aber das ist oft nicht der Fall. Viele Sounds passieren ausserhalb des Bildschirms oder passen nicht zu dem, was visuell passiert. Das führt dazu, dass Sounds erzeugt werden, die nicht gut zu den Bildern passen, was zu Verwirrung und einem Mangel an Kontrolle über die erzeugten Sounds führt.
Um dieses Problem anzugehen, stellen wir ein neues Modell namens AV-LDM vor, das sich darauf konzentriert, den Unterschied zwischen Sounds, die direkt mit Aktionen verbunden sind, und denen, die Teil des Hintergrundgeräuschs sind, zu verstehen. Unser Modell nimmt stille Videos und erstellt Audio, das sowohl in Bedeutung als auch Timing zum visuellen Inhalt passt. Wir haben unser Modell mit zwei realen Video-Datensätzen trainiert und getestet: Ego4D und EPIC-KITCHENS. Unsere Ergebnisse zeigen, dass unser Modell besser abschneidet als andere bei der Erzeugung von Sounds, die gut mit den Aktionen in den Videos übereinstimmen. Es hat den zusätzlichen Vorteil, dass Benutzer die Lautstärke des Hintergrundgeräuschs im erzeugten Audio steuern können, und es funktioniert auch gut mit Videoclips aus Computerspielen.
Im Alltag, wenn wir mit Objekten interagieren, erzeugen diese Aktionen Sounds. Zum Beispiel, wenn man auf eine Maus klickt, eine Tür schliesst oder Gemüse hackt, produzieren all diese Aktionen verschiedene Sounds, die von der Aktion, den beteiligten Objekten und der angewendeten Kraft abhängen. Während Videos die stattfindenden Aktionen festhalten, geben sie auch Hinweise darauf, wann diese Aktionen passieren. Das bedeutet, wir könnten potenziell glaubwürdige Sounds einfach aus stummen Videos erstellen. Diese Fähigkeit könnte in mehreren Anwendungen nützlich sein, einschliesslich der Erstellung von Soundeffekten für Filme oder der Erzeugung von Sounds in virtuellen Realitäten und Videospielen.
Echte Sounds bestehen normalerweise aus zwei Haupttypen: Aktionssounds (die direkt von sichtbaren Aktionen kommen) und Hintergrundsounds (die von Quellen stammen können, die im Video nicht sichtbar sind). Frühere Methoden unterschieden nicht zwischen diesen beiden Arten von Sounds, was zu Problemen führte. Unser Modell unterscheidet Aktionssounds von Umgebungsgeräuschen in Trainingsvideos, was es uns ermöglicht, besseres Audio zu erstellen.
Wir haben festgestellt, dass während Aktionssounds in kurzen Momenten auftreten, Hintergrundsounds oft länger bleiben. Das erlaubt uns, einen einfachen, aber effektiven Ansatz vorzuschlagen. Im Training nutzt unser Modell sowohl das Eingabevideo als auch ein Audiosegment aus demselben langen Video zu einem anderen Zeitpunkt. So kann das Modell lernen, sich auf die Aktionshinweise im Video zu konzentrieren und gleichzeitig die Störungen durch Hintergrundsounds zu minimieren.
Beim Testen verwenden wir kein ursprüngliches Audiomaterial. Stattdessen suchen und holen wir einen Audioclip aus unserem Trainingssatz, der visuell und akustisch gut zum Video passt. Diese Methode funktioniert gut in Szenarien, in denen die Sounds nicht klar mit den Bildern verknüpft werden können, zum Beispiel draussen, wo der Wind raschelt.
Die bestehenden Methoden zur Erzeugung von Aktionssounds basieren normalerweise entweder auf sauberen Daten, die einen kleinen Bereich von Aktionstypen abdecken, oder sie verwenden Videos aus Online-Quellen, die auf eine bestimmte Weise kategorisiert sind. Wir wollen das Spektrum der Aktionssounderzeugung auf natürlicher wirkende, reale Aktionen erweitern. Um dies zu erreichen, nutzen wir grossangelegte egozentrische Video-Datensätze, die Aufnahmen aus der Perspektive einer Person sind. Diese Videos bieten einen besseren Einblick in menschliche Aktionen im Vergleich zu Videos, die aus der Ferne aufgenommen wurden, und enthalten oft zeitgestempelte Beschreibungen dessen, was zu einem bestimmten Zeitpunkt passiert. Wir haben sorgfältig einen Datensatz namens Ego4D-Sounds erstellt, der aus 1,2 Millionen audio-visuellen Aktionsclips besteht.
In unserer Arbeit hatten wir das Ziel, Aktionssounds während des Trainings implizit von Hintergrundsounds zu trennen. Dies haben wir erreicht, indem wir das audio-visuelle latente Diffusionsmodell (AV-LDM) entworfen haben, das sowohl Video als auch Audio für die Sounderzeugung nutzt. Wir haben unser Modell gegen verschiedene bestehende Methoden getestet und gezeigt, dass es auf den Datensätzen Ego4D-Sounds und EPIC-KITCHENS signifikant besser abschneidet. Darüber hinaus zeigen menschliche Bewertungen, dass unser Modell Sounds erzeugt, die gut zu den Videos passen.
Unser Modell erzeugt nicht nur realistische Aktionssounds, sondern ermöglicht es den Nutzern auch, die Lautstärke der Hintergrundsounds zu kontrollieren. Diese Fähigkeit kann besonders nützlich für Videospiele sein, bei denen der Fokus möglicherweise ganz auf den Aktionen liegt und nicht auf dem umgebenden Geräusch. Zum Beispiel, wenn ein Spieler in einem Kochspiel Gemüse hackt, kann unser Modell die richtigen Hackgeräusche liefern, während es unerwünschtes Hintergrundgeräusch auf ein Minimum reduziert.
Um dies zu erreichen, mussten wir eine klare Unterscheidung zwischen Aktionssounds und Hintergrundgeräuschen schaffen. Die Herausforderung liegt darin, dass Aktionssounds normalerweise kurz sind, während Hintergrundgeräusche im gesamten Video anhalten können. Wenn jemand zum Beispiel ein Paket mit Gewürzen schliesst, repräsentiert das Rascheln den Akt, während ein summendes Geräusch aus einem unsichtbaren Kühlschrank der Hintergrundsound wäre.
Viele frühere Methoden gingen von einer Eins-zu-eins-Zuordnung zwischen den Bildern und den Sounds aus, aber das ist oft nicht der Fall in Videos des täglichen Lebens. Viele Off-Screen-Sounds, wie Gespräche oder Verkehr, spiegeln nicht wider, was in den Bildern passiert. Wenn ein Modell mit dieser Annahme trainiert wird, kann es Sounds erzeugen, die nicht zu den in einem Video festgehaltenen Aktionen passen.
Um die Audioerzeugung zu verbessern, trainieren wir unser Modell so, dass es die schwache oder fehlende Korrelation zwischen den Bildern und Umgebungsgeräuschen anerkennt. Wir nutzen unsere Beobachtungen, wie Aktionssounds in kurzen Zeitspannen erscheinen im Vergleich zu Hintergrundsounds, die dazu neigen, im gesamten Video anhaltend zu sein. Das führt uns dazu, ein System zu entwickeln, bei dem wir dem Modell während des Trainings einen Audioclip aus einem anderen Zeitpunkt im selben Video bereitstellen.
Zur Testzeit holen wir ein relevantes Audio-Segment basierend auf visueller Ähnlichkeit. Diese Methode funktioniert besonders gut für Situationen, in denen das Hintergrundgeräusch nicht stark mit den Aktionen im Video verknüpft ist, wie in Aussenbereichen.
Das Ziel unseres Modells ist es, die Möglichkeiten zur Erzeugung von Aktionssounds in Videos aus realen Situationen zu erweitern. Wir verlassen uns auf die jüngsten Fortschritte bei egozentrischen Video-Datensätzen, um unsere Ziele zu unterstützen. Obwohl unser Modell nicht speziell für egozentrische Videos entworfen ist, helfen diese Datensätze, einen besseren Blick auf menschliche Aktionen zu bieten im Vergleich zu aus der Ferne aufgenommenen Videos. Ausserdem kommen diese Datensätze mit Beschreibungen, die die durchgeführten Aktionen umreissen.
Unser vorgeschlagenes Modell, AV-LDM, kann Sounds basierend auf den Aktionen in den Videos erzeugen, indem es sowohl die Video- als auch die Audio-Informationen nutzt. Die Ergebnisse zeigen, dass unser Modell bei einer Vielzahl von Metriken besser abschneidet als andere bestehende Methoden und dessen Effektivität bei der Sounderzeugung beweist.
In unseren Studien haben wir unser Modell am Ego4D-Sounds-Datensatz evaluiert und festgestellt, dass es bestehende Ansätze signifikant übertrifft. Wir haben auch eine menschliche Bewertung durchgeführt, um Feedback dazu zu sammeln, wie realistisch die erzeugten Sounds im Vergleich zu den Bildern waren. Die Ergebnisse waren ermutigend, da die Teilnehmer die Audio unseres Modells den anderen vorzogen und damit dessen Fähigkeiten bestätigten.
Darüber hinaus haben wir unser Modell am EPIC-KITCHENS-Datensatz getestet und ähnliche Erfolge gefunden. Unser Modell erzielte bessere Ergebnisse in Bezug auf die Sounderzeugung im Vergleich zu anderen Modellen, was seine Fähigkeit demonstriert, auf verschiedene Datensätze zu verallgemeinern.
Eine spannende Anwendung, die wir erkundet haben, ist die Erzeugung von Soundeffekten für virtuelle Realität Spiele. Mit Tests unseres Modells an Videos aus einem Kochspiel fanden wir heraus, dass es erfolgreich synchronisierte Sounds für Aktionen erzeugen konnte, was das Nutzererlebnis in immersiven Umgebungen verbessert.
Zusammenfassend lässt sich sagen, dass unser Modell die Herausforderung angeht, Aktionssounds zu erzeugen, die mit dem übereinstimmen, was in den Videos passiert, insbesondere wenn Hintergrundgeräusche die Audio-Klarheit stören können. Die Fähigkeit, Aktionssounds von Umgebungsgeräuschen zu trennen, gibt den Nutzern die Kontrolle darüber, was sie hören, während sie Videoinhalte nutzen, sei es für Filme oder Spiele.
In der Zukunft planen wir, zu erforschen, wie wir unsere Audioerzeugungsmodelle auf synthetische Bilder in virtuellen Realität Anwendungen anwenden können, um das audio-visuelle Erlebnis für die Nutzer weiter zu verbessern.
Verständnis von Aktionssounds
In unseren täglichen Erfahrungen interagieren wir regelmässig mit verschiedenen Objekten und Aktionen, die Sounds erzeugen. Wie diese Sounds wahrgenommen werden, kann je nach Faktoren wie der Art der Aktion, den beteiligten Materialien und der Umgebung variieren. Zum Beispiel unterscheidet sich der Sound, der beim Umrühren einer Tasse Kaffee entsteht, von dem beim Schneiden von Gemüse, obwohl beide gängige Aktionen sind.
Viele der Versuche, audio-visuelle Lernsysteme zu entwickeln, haben sich darauf konzentriert, menschliche Aktivitäten innerhalb von Videos zu erkennen. Diese Systeme werden in der Regel mit Videos entwickelt, die aus einer externen Perspektive gefilmt werden. Im Gegensatz dazu erfassen egozentrische Videos Aktionen aus der Sicht der Person, die die Aktivität ausführt, und bieten eine genauere Darstellung von Aktionen sowie den damit verbundenen Sounds.
Wenn wir die Sounderzeugung analysieren, müssen wir das Verhältnis zwischen den Sounds, die wir hören, und den Aktionen, die wir sehen, berücksichtigen. Aktionssounds sind oft kurz und schnell, während Hintergrundsounds länger bleiben können und weniger relevant für die Hauptaktion sind. Diese Komplexität macht es schwierig, Sounds zu erzeugen, die sowohl bedeutungsvoll als auch mit den in dem Video sichtbaren Aktionen übereinstimmen.
Trennung von Aktions- und Umgebungsgeräuschen
Ein zentrales Hindernis bei der genauen Erzeugung von Sounds liegt darin, die Aktionssounds effektiv von den Hintergrundsounds zu trennen. Traditionelle Methoden tendierten dazu, beide Arten zu vermischen, was zu Problemen führte, bei denen die erzeugten Sounds die Aktion nicht genau widerspiegelten. Im Gegensatz dazu erkennt unser Ansatz, dass während Aktionssounds flüchtig sind, Umgebungsgeräusche im gesamten Video bestehen bleiben können, was die Trainings- und Erzeugungsprozesse kompliziert.
Für unser Modell haben wir erkannt, dass die Verwendung von Audioclips aus demselben Video, aber zu unterschiedlichen Zeitpunkten, unser Training erheblich verbessern könnte. Das erlaubt dem Modell, die Umgebungsgeräusche, die möglicherweise vorhanden sind, zu erkennen, ohne dass sie die Aktionssounds stören.
Praktisch bedeutet das, dass wir unser Modell bei einem stillen Video mit Audio versorgen können, das aus einem benachbarten Clip im selben Video stammt. Diese Methode lässt unser Modell lernen, sich auf die in dem Video hervorgehobenen Aktionen zu konzentrieren, während es irrelevante Hintergrundsounds beiseitelegt, die keinen Beitrag zum Gesamtkontext der Aktion leisten.
Bei der Audioerzeugung ruft das Modell einen relevanten Soundclip ab, der gut mit dem visuellen Input übereinstimmt. Indem wir die Ähnlichkeit zwischen dem stummen Video und den gespeicherten Audioclips bewerten, können wir den relevantesten Sound für den gegebenen visuellen Kontext abrufen.
Dieser Ansatz bietet einen klareren Weg zur Erzeugung genauerer Aktionssounds, da das Modell jetzt die Fähigkeit hat, das, was visuell passiert, von irrelevanten Geräuschen zu isolieren.
Praktische Anwendungen
Die Auswirkungen unseres Modells gehen über die Forschung hinaus. In Filmen und Spielen spielt der Sound eine wichtige Rolle bei der Schaffung immersiver Erlebnisse. Mit der Fähigkeit, Aktionssounds zu erzeugen, die zum visuellen Kontext passen, können Filmemacher und Spielentwickler fesselndere Inhalte erstellen.
In der virtuellen Realität, wo Interaktionen komplex sein und mehrere gleichzeitige Aktionen beinhalten können, ermöglicht unser Modell die dynamische Erzeugung von Sounds, die sich anpassen, während die Nutzer ihre Aktionen ausführen. Wenn ein Spieler in einem Kochspiel mit verschiedenen Zutaten interagiert, könnten die Sounds entsprechend variieren, um jede spezifische Aktion widerzuspiegeln und so das Gesamterlebnis zu verbessern.
Unser Modell eröffnet auch innovative Anwendungen in anderen Bereichen, einschliesslich Bildung und Trainingssimulationen, bei denen realistische Sounds Lernumgebungen verbessern können, indem sie Feedback liefern, das mit Aktionen abgestimmt ist.
Zukünftige Richtungen
In Zukunft planen wir, das volle Potenzial unseres Aktions-zu-Sound-Generierungssystems zu erforschen. Dazu gehört, wie wir unser Modell auf synthetische Bilder und Videos in virtuellen Realität Kontexten anwenden können. Dadurch wollen wir das audio-visuelle Erlebnis in virtuellen Umgebungen verbessern und Interaktionen noch immersiver und reaktionsschneller gestalten.
Darüber hinaus werden wir unser Modell weiterhin verfeinern, um die Qualität und Relevanz der erzeugten Sounds zu verbessern. Diese fortlaufende Arbeit zielt darauf ab, das Spektrum der erfassten Aktionssounds zu erweitern und die Leistung des Modells in verschiedenen Kontexten zu verbessern, sodass es ein vielseitiges Werkzeug für viele Anwendungen wird.
Zusammenfassend lässt sich sagen, dass unsere Bemühungen, ein Modell zu erstellen, das realistische Sounds erzeugen kann, während es Aktionssounds von Hintergrundgeräuschen trennt, die Grundlage für aufregende Fortschritte in Film, Gaming und darüber hinaus gelegt haben. Indem wir Daten aus der realen Welt nutzen und uns auf die Feinheiten menschlicher Aktionen und Sounderzeugung konzentrieren, sind wir gut positioniert, um in diesem innovativen Bereich an der Spitze zu stehen.
Titel: Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos
Zusammenfassung: Generating realistic audio for human actions is important for many applications, such as creating sound effects for films or virtual reality games. Existing approaches implicitly assume total correspondence between the video and audio during training, yet many sounds happen off-screen and have weak to no correspondence with the visuals -- resulting in uncontrolled ambient sounds or hallucinations at test time. We propose a novel ambient-aware audio generation model, AV-LDM. We devise a novel audio-conditioning mechanism to learn to disentangle foreground action sounds from the ambient background sounds in in-the-wild training videos. Given a novel silent video, our model uses retrieval-augmented generation to create audio that matches the visual content both semantically and temporally. We train and evaluate our model on two in-the-wild egocentric video datasets, Ego4D and EPIC-KITCHENS, and we introduce Ego4D-Sounds -- 1.2M curated clips with action-audio correspondence. Our model outperforms an array of existing methods, allows controllable generation of the ambient sound, and even shows promise for generalizing to computer graphics game clips. Overall, our approach is the first to focus video-to-audio generation faithfully on the observed visual content despite training from uncurated clips with natural background sounds.
Autoren: Changan Chen, Puyuan Peng, Ami Baid, Zihui Xue, Wei-Ning Hsu, David Harwath, Kristen Grauman
Letzte Aktualisierung: 2024-07-25 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2406.09272
Quell-PDF: https://arxiv.org/pdf/2406.09272
Lizenz: https://creativecommons.org/publicdomain/zero/1.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.