Simple Science

Scienza all'avanguardia spiegata semplicemente

# Ingegneria elettrica e scienze dei sistemi# Visione artificiale e riconoscimento di modelli# Intelligenza artificiale# Suono# Elaborazione dell'audio e del parlato

Progressi nella Generazione di Suoni da Video

Un nuovo modello migliora il match del suono con le azioni visive nei video.

― 11 leggere min


Tecniche di generazioneTecniche di generazionedel suono di livellosuperiorecon azioni visive.Rivoluzionare l'allineamento del suono
Indice

Creare suoni realistici per azioni umane è importante in molti campi, come la realizzazione di effetti sonori per film o giochi di realtà virtuale. Molti metodi attuali per generare suoni si basano sull'idea che ciò che vedi in un video corrisponda perfettamente a ciò che senti. Tuttavia, spesso non è così. Molti suoni si verificano fuori dallo schermo o non corrispondono a ciò che sta accadendo visivamente. Questo porta a suoni generati che non si abbinano bene con le immagini, causando confusione e mancanza di controllo sui suoni prodotti.

Per affrontare questo problema, introduciamo un nuovo modello chiamato AV-LDM, che si concentra sulla comprensione della differenza tra suoni direttamente legati alle azioni e quelli che fanno parte del rumore di fondo. Il nostro modello prende video silenziosi e crea audio che si adatta al contenuto visivo sia nel significato che nel timing. Abbiamo addestrato e testato il nostro modello utilizzando due set di dati video del mondo reale: Ego4D ed EPIC-KITCHENS. I nostri risultati mostrano che il nostro modello si comporta meglio di altri nella generazione di suoni che si allineano bene con le azioni viste nei video. Ha il vantaggio aggiuntivo di consentire agli utenti di controllare i livelli di rumore di fondo nell'audio generato e funziona bene anche con clip video da giochi per computer.

Nella vita di tutti i giorni, quando interagiamo con oggetti, quelle azioni producono suoni. Ad esempio, cliccare un mouse, chiudere una porta o tagliare verdure producono tutti suoni distinti basati sull'azione, sugli oggetti coinvolti e sulla forza applicata. Mentre il video cattura le azioni in corso, fornisce anche indizi su quando quelle azioni avvengono. Questo significa che potremmo potenzialmente creare suoni credibili semplicemente da video silenziosi. Questa abilità potrebbe essere utile in diverse applicazioni, tra cui la produzione di effetti sonori per film o generazione di suoni in realtà virtuale e videogiochi.

I suoni del mondo reale di solito consistono in due tipi principali: suoni d'azione (che provengono direttamente da azioni visibili) e suoni di fondo (che potrebbero provenire da fonti non visibili nel video). I metodi precedenti non differenziavano tra questi due tipi di suoni, portando a problemi. Il nostro modello distingue i suoni d'azione dai suoni ambientali nei video di addestramento, permettendoci di creare un audio migliore.

Abbiamo scoperto che mentre i suoni d'azione avvengono in brevi momenti, i suoni di fondo tendono a persistere. Questo ci consente di proporre un approccio semplice ma efficace. In fase di addestramento, il nostro modello utilizza sia il video in input che un segmento audio dallo stesso lungo video in un momento diverso. In questo modo, il modello può imparare a concentrarsi sugli indizi d'azione dal video, minimizzando le interferenze dei suoni di fondo.

Durante il test, non usiamo audio di riferimento. Invece, troviamo e recuperiamo un clip audio dal nostro set di addestramento che corrisponde strettamente al video in termini di somiglianza visiva e sonora. Questo metodo funziona bene in scenari in cui i suoni non possono essere collegati chiaramente alle immagini, ad esempio, all'aperto dove il vento fruscia.

I metodi esistenti per generare suoni d'azione di solito si basano o su dati puliti che coprono un piccolo intervallo di tipi di azione, o utilizzano video da fonti online che sono categorizzati in un modo specifico. Noi cerchiamo di espandere l'intervallo di generazione di suoni d'azione a azioni più naturali e reali. Per raggiungere questo obiettivo, utilizziamo set di dati video egocentrici su larga scala, che sono registrazioni effettuate dal punto di vista di una persona. Questi video offrono una visione più ravvicinata delle azioni umane rispetto ai video ripresi da lontano, e spesso vengono forniti con descrizioni temporali di ciò che sta accadendo in ogni momento. Abbiamo creato con attenzione un set di dati chiamato Ego4D-Sounds, che consiste in 1,2 milioni di clip audio-visuali di azione.

Nel nostro lavoro, ci siamo proposti di separare implicitamente i suoni d'azione dai suoni di fondo durante l'addestramento. Abbiamo raggiunto questo obiettivo progettando il modello di diffusione latente audio-visiva (AV-LDM) che utilizza sia video che audio per la Generazione del suono. Abbiamo testato il nostro modello contro vari metodi esistenti e abbiamo dimostrato che supera significativamente i risultati su entrambi i set di dati Ego4D-Sounds ed EPIC-KITCHENS. Inoltre, le valutazioni umane indicano che il nostro modello produce suoni che si abbinano bene con i video.

Il nostro modello non solo genera suoni d'azione realistici, ma consente anche agli utenti di controllare i livelli dei suoni di fondo. Questa capacità può essere particolarmente utile per i videogiochi, dove l'attenzione potrebbe essere interamente sulle azioni piuttosto che sul rumore circostante. Ad esempio, quando un giocatore sta tagliando verdure in un gioco di cucina, il nostro modello può fornire i giusti suoni di taglio mantenendo al minimo i rumori di fondo indesiderati.

Per raggiungere questo obiettivo, abbiamo dovuto creare una chiara distinzione tra suoni d'azione e rumori di fondo. La sfida sta nel fatto che i suoni d'azione sono di solito brevi mentre i suoni di fondo possono persistere per tutto il video. Ad esempio, quando qualcuno sta chiudendo un pacchetto di spezie, il suono fruscioso rappresenta l'azione, mentre un ronzio proveniente da un frigorifero fuori campo sarebbe il suono di fondo.

Molti metodi precedenti assumevano una corrispondenza uno-a-uno tra le immagini e i suoni, ma questo spesso non è vero nei video della vita quotidiana. Molti suoni off-screen, come conversazioni o traffico, non riflettono ciò che sta accadendo nelle immagini. Se un modello viene addestrato con questa assunzione, può generare suoni che non si abbinano alle azioni catturate in un video.

Per migliorare la generazione audio, addestriamo il nostro modello in modo che riconosca la correlazione debole o assente tra le immagini e i suoni ambientali. Utilizziamo le nostre osservazioni su come i suoni d'azione appaiono in brevi momenti rispetto a come i suoni di fondo tendono a persistere per tutto il video. Questo ci porta a sviluppare un sistema in cui forniamo al modello un clip audio da un momento diverso nello stesso video durante l'addestramento.

Al momento del test, recuperiamo un segmento audio rilevante in base alla somiglianza visiva. Questo metodo funziona particolarmente bene per situazioni in cui il rumore di fondo non è fortemente legato alle azioni nel video, come in ambienti all'aperto.

L'obiettivo del nostro modello è espandere le possibilità per generare suoni d'azione in video presi in situazioni reali. Ci affidiamo ai recenti progressi nei set di dati video egocentrici per aiutare nei nostri obiettivi. Anche se il nostro modello non è progettato specificamente per video egocentrici, questi set di dati aiutano a fornire una visione migliore delle azioni umane rispetto ai video presi da lontano. Inoltre, questi set di dati vengono forniti con descrizioni che delineano le azioni che si stanno compiendo.

Il nostro modello proposto, AV-LDM, può generare suoni basati sulle azioni nei video utilizzando sia le informazioni video che audio. I risultati indicano che il nostro modello supera altri metodi esistenti su una varietà di metriche, dimostrando la sua efficacia nella generazione del suono.

Nei nostri studi, abbiamo valutato il nostro modello sul set di dati Ego4D-Sounds e abbiamo scoperto che ha superato significativamente gli approcci esistenti. Abbiamo anche condotto una valutazione umana per raccogliere feedback su quanto fossero realistici i suoni generati rispetto alle immagini. I risultati sono stati incoraggianti, poiché i partecipanti hanno preferito l'audio del nostro modello rispetto agli altri, confermando le sue capacità.

Inoltre, abbiamo testato il nostro modello sul set di dati EPIC-KITCHENS, trovando un successo simile. Il nostro modello ha prodotto risultati migliori in termini di generazione del suono rispetto ad altri modelli, dimostrando la sua capacità di generalizzare su vari set di dati.

Una delle applicazioni interessanti che abbiamo esplorato è la generazione di effetti sonori per giochi di realtà virtuale. Testando il nostro modello su video di un gioco di cucina, abbiamo scoperto che poteva produrre con successo suoni sincronizzati per le azioni, migliorando l'esperienza dell'utente in ambienti immersivi.

In conclusione, il nostro modello affronta la sfida di generare suoni d'azione che si allineano a ciò che sta accadendo nei video, soprattutto quando il rumore di fondo può interferire con la chiarezza audio. La capacità di separare i suoni d'azione dai suoni ambientali offre agli utenti il controllo su ciò che sentono mentre utilizzano contenuti video, sia per film che per giochi.

Guardando al futuro, intendiamo indagare su come possiamo applicare i nostri modelli di generazione audio a immagini sintetiche nelle applicazioni di realtà virtuale, migliorando ulteriormente l'esperienza audio-visiva per gli utenti.

Comprendere i Suoni d'Azione

Nelle nostre esperienze quotidiane, interagiamo regolarmente con vari oggetti e azioni che producono suoni. Come questi suoni vengono percepiti può variare a seconda di fattori come il tipo di azione, i materiali coinvolti e l'ambiente. Ad esempio, il suono prodotto mescolando una tazza di caffè è diverso da quello del tagliare verdure, anche se entrambe sono azioni comuni.

Molti dei tentativi di sviluppare sistemi di apprendimento audio-visivo si sono concentrati sul riconoscimento delle attività umane nei video. Questi sistemi tendono a essere sviluppati utilizzando video filmati da un punto di vista esterno. Al contrario, i video egocentrici catturano le azioni dalla prospettiva della persona che svolge l'attività, offrendo una rappresentazione più ravvicinata delle azioni e dei suoni che le accompagnano.

Quando analizziamo la generazione del suono, dobbiamo considerare la relazione tra i suoni che sentiamo e le azioni che vediamo. I suoni d'azione sono spesso brevi e rapidi, mentre i suoni di fondo possono durare più a lungo e possono essere meno rilevanti per l'azione principale. Questa complessità rende difficile generare suoni che siano sia significativi che allineati con le azioni visibili nel video.

Disentanglement dei Suoni d'Azione e Ambientali

Una barriera chiave nella generazione accurata dei suoni risiede nella separazione efficace dei suoni d'azione dai suoni di fondo. I metodi tradizionali tendevano a fondere entrambi i tipi, portando a problemi in cui i suoni generati non riflettevano accuratamente l'azione. Al contrario, il nostro approccio riconosce che mentre i suoni d'azione sono fugaci, i suoni ambientali possono persistere per tutto il video, complicando i processi di addestramento e generazione.

Per il nostro modello, ci siamo resi conto che utilizzare clip audio dallo stesso video ma a momenti diversi potrebbe migliorare significativamente il nostro addestramento. Questo consente al modello di riconoscere i suoni ambientali che potrebbero essere presenti senza lasciarli interferire con i suoni d'azione.

In termini pratici, questo significa che quando addestriamo il nostro modello su un video silenzioso, possiamo fornirgli audio preso da un clip vicino nello stesso video. Questo metodo consente al nostro modello di imparare a concentrarsi sulle azioni evidenziate nel video mentre mette da parte suoni di fondo irrilevanti che non contribuiscono al contesto generale dell'azione.

Quando generiamo audio, il modello recupera un clip sonoro rilevante che si allinea bene con l'input visivo. Valutando la somiglianza tra il video silenzioso e i clip audio memorizzati, possiamo estrarre il suono più rilevante per il contesto visivo dato.

Questo approccio fornisce un percorso più chiaro per generare suoni d'azione più accurati, poiché il modello ora ha la capacità di isolare ciò che sta accadendo visivamente da ciò che è rumore irrilevante.

Applicazioni Pratiche

Le implicazioni del nostro modello si estendono oltre la ricerca. Nei film e nei giochi, il suono gioca un ruolo vitale nella creazione di esperienze immersive. Con la capacità di generare suoni d'azione che si adattano al contesto visivo, i cineasti e gli sviluppatori di giochi possono creare contenuti più coinvolgenti.

Nella realtà virtuale, dove le interazioni possono essere complesse e coinvolgere più azioni simultanee, il nostro modello consente la generazione dinamica di suoni che si adattano man mano che gli utenti svolgono le loro azioni. Ad esempio, se un giocatore in un gioco di cucina interagisce con vari ingredienti, i suoni potrebbero cambiare di conseguenza per abbinarsi a ciascuna azione specifica, migliorando la loro esperienza complessiva.

Il nostro modello apre anche la strada a applicazioni innovative in altri settori, compresi l'educazione e le simulazioni di formazione, dove suoni realistici possono migliorare gli ambienti di apprendimento fornendo feedback allineato con le azioni.

Direzioni Future

Guardando avanti, intendiamo esplorare il pieno potenziale del nostro sistema di generazione da azione a suono. Questo include anche esaminare come possiamo applicare il nostro modello a immagini e video sintetici nei contesti della realtà virtuale. Facendo così, miriamo a migliorare l'esperienza audio-visiva all'interno degli ambienti virtuali, rendendo le interazioni ancora più immersive e reattive.

Inoltre, continueremo a perfezionare il nostro modello per migliorare la qualità e la pertinenza dei suoni generati. Questo lavoro in corso mira a ampliare la gamma di suoni d'azione catturati e migliorare le prestazioni del modello in contesti vari, rendendolo uno strumento versatile per molte applicazioni.

In sintesi, i nostri sforzi per creare un modello che possa generare suoni realistici mentre separa i suoni d'azione dai rumori di fondo hanno gettato le basi per avanzamenti entusiasmanti nel cinema, nei giochi e oltre. Sfruttando dati reali e concentrandoci sulle complessità delle azioni umane e della generazione del suono, siamo ben posizionati per guidare il cammino in questo campo innovativo.

Fonte originale

Titolo: Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos

Estratto: Generating realistic audio for human actions is important for many applications, such as creating sound effects for films or virtual reality games. Existing approaches implicitly assume total correspondence between the video and audio during training, yet many sounds happen off-screen and have weak to no correspondence with the visuals -- resulting in uncontrolled ambient sounds or hallucinations at test time. We propose a novel ambient-aware audio generation model, AV-LDM. We devise a novel audio-conditioning mechanism to learn to disentangle foreground action sounds from the ambient background sounds in in-the-wild training videos. Given a novel silent video, our model uses retrieval-augmented generation to create audio that matches the visual content both semantically and temporally. We train and evaluate our model on two in-the-wild egocentric video datasets, Ego4D and EPIC-KITCHENS, and we introduce Ego4D-Sounds -- 1.2M curated clips with action-audio correspondence. Our model outperforms an array of existing methods, allows controllable generation of the ambient sound, and even shows promise for generalizing to computer graphics game clips. Overall, our approach is the first to focus video-to-audio generation faithfully on the observed visual content despite training from uncurated clips with natural background sounds.

Autori: Changan Chen, Puyuan Peng, Ami Baid, Zihui Xue, Wei-Ning Hsu, David Harwath, Kristen Grauman

Ultimo aggiornamento: 2024-07-25 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2406.09272

Fonte PDF: https://arxiv.org/pdf/2406.09272

Licenza: https://creativecommons.org/publicdomain/zero/1.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili