Simple Science

Scienza all'avanguardia spiegata semplicemente

# Ingegneria elettrica e scienze dei sistemi# Suono# Visione artificiale e riconoscimento di modelli# Elaborazione dell'audio e del parlato

Generazione di Suono Innovativa per Modelli Umani 3D

Un nuovo metodo migliora la creazione del suono per modelli umani 3D realistici.

― 7 leggere min


Suono Avanzato per UmaniSuono Avanzato per Umani3Dmodelli umani 3D.Migliorare il realismo audio per
Indice

Mentre creare modelli umani 3D realistici per media visivi come videogiochi e film è migliorato molto, i suoni che questi modelli producono sono stati per lo più trascurati. Questo lavoro introduce un nuovo modo per generare suoni di alta qualità che provengono da un corpo umano, catturando tutto, dal parlato ai passi.

Utilizziamo posizioni corporee 3D insieme a Audio registrato da un microfono montato sulla testa per creare un ambiente sonoro completo. Il nostro metodo consente di riprodurre accuratamente i suoni in qualsiasi Spazio 3D, rendendo possibile sentire il suono come se una persona fosse veramente presente.

Per rendere tutto ciò efficiente e veloce, prendiamo spunto da tecniche di Rendering grafico che usano forme semplici, che chiamiamo "primitivi acustici". Questi primitivi ci aiutano a creare rappresentazioni sonore molto più piccole e in grado di produrre suoni che sembrano più vicini al corpo rispetto ai metodi precedenti.

L'importanza del suono nei modelli 3D

Creare esseri umani 3D vividi è fondamentale, soprattutto per applicazioni in gaming e realtà virtuale (VR). Molti strumenti moderni, come MetaHumans e Codec Avatars, consentono modelli visivi straordinari. Tuttavia, abbinare i visivi a suoni corrispondenti non ha ricevuto altrettanta attenzione.

Una rappresentazione sonora accurata è vitale per un'esperienza 3D credibile. Quando le persone vedono un umano virtuale, si aspettano di sentire suoni che corrispondano ai loro movimenti o azioni. Attualmente, la ricerca sulla creazione di suoni spaziali per questi umani virtuali è carente.

In questo lavoro, ci concentriamo su due requisiti chiave:

  1. Dobbiamo essere in grado di riprodurre suoni in qualsiasi punto di uno spazio 3D prodotto da un umano virtuale.
  2. L'ambiente sonoro deve essere controllabile, ovvero può essere regolato in tempo reale in base ai movimenti del corpo e ai suoni emessi.

Sfide nella riproduzione del suono

I metodi precedenti tipicamente usavano una singola rappresentazione complessa del suono attorno a un corpo umano, rendendo difficile catturare accuratamente i suoni vicini al corpo. Gli approcci passati richiedevano anche molta potenza di calcolo e non erano in grado di fornire risultati in tempo reale.

Per affrontare queste problematiche, proponiamo un nuovo metodo che utilizza componenti sonori più piccoli, o primitivi acustici. Ogni primitivo è una piccola sfera attaccata a punti sul corpo umano. Invece di fare affidamento su un modello complesso, sommiamo il suono prodotto da ogni primitivo per generare un ambiente sonoro accurato. Questo metodo consente di modellare facilmente suoni molto vicino al corpo.

Vantaggi dei primitivi acustici

  1. Migliore riproduzione nel campo vicino: I metodi tradizionali avrebbero difficoltà a creare accuratamente suoni vicini al corpo. Il nostro approccio lo gestisce utilizzando molti piccoli primitivi sonori, consentendo una rappresentazione sonora realistica anche a distanze ravvicinate.

  2. Rappresentazione sonora compatta: Invece di utilizzare un modello complesso, creiamo rappresentazioni sonore più semplici e piccole, rendendo la modellazione sonora complessiva molto più veloce.

  3. Riproduzione sonora efficiente: Il nostro metodo può prevedere i coefficienti sonori direttamente, evitando i complessi processi tradizionali che rallentano la riproduzione del suono. Questo significa che possiamo creare suoni in tempo reale basati sui movimenti del corpo e sui suoni captati dal microfono.

Panoramica del sistema

Abbiamo progettato un sistema che utilizza sia informazioni audio che posizioni corporee per creare ambienti sonori. Questo sistema consiste in diverse parti che lavorano insieme per catturare, elaborare e riprodurre suoni.

Dati di input

Il sistema riceve input da:

  • segnali audio catturati con un microfono montato sulla testa.
  • pose corporee 3D che descrivono la posizione delle articolazioni del corpo umano.

L'obiettivo è creare rappresentazioni sonore in una specifica posizione 3D basata su questo input.

Fasi di elaborazione

  1. Apprendimento dei primitivi acustici: Il primo passo è catturare i campi sonori generati dal corpo utilizzando i dati di input.
  2. Riproduzione audio con primitivi: Una volta appresi i primitivi acustici, li utilizziamo per generare onde sonore nelle posizioni desiderate.

Codifica delle caratteristiche

Codifica della posa

I movimenti del corpo forniscono informazioni cruciali su come i suoni vengono prodotti nello spazio. Codifichiamo questi movimenti in un formato che cattura i loro aspetti temporali. Questo ci aiuta a capire come il suono cambia nel tempo mentre il corpo si muove.

Codifica audio

Poiché l'audio può provenire da vari punti del corpo, mentre viene registrato in testa, consideriamo questo leggero ritardo temporale quando elaboriamo i suoni. Questo ci consente di creare caratteristiche audio che riflettono il suono reale proveniente dal corpo.

Fusione delle caratteristiche

Uniremo le caratteristiche audio e di posa codificate in una singola rappresentazione. Questa fusione consente al nostro modello di utilizzare efficacemente entrambi i tipi di dati, migliorando l'accuratezza dei suoni generati.

Processo di riproduzione del suono

Il processo di riproduzione del suono coinvolge il calcolo di come ogni primitivo acustico contribuisce all'ambiente sonoro complessivo. La posizione di ogni primitivo cambia mentre il corpo si muove, quindi dobbiamo tener conto di questi cambiamenti con precisione.

Posizioni e pesi previsti

Calcoliamo le nuove posizioni di ogni primitivo regolando eventuali offset appresi. Inoltre, diversi primitivi avranno impatti variabili sul suono finale in base alla loro importanza in momenti specifici.

Riproduzione del campo sonoro

Per creare il campo sonoro che un ascoltatore sente, trasformiamo la posizione di ogni primitivo in un formato adatto alla riproduzione. Sommare tutti i suoni riprodotti da ciascun primitivo ci consente di produrre il campo sonoro finale.

Funzione di perdita e addestramento

Per addestrare il nostro modello, utilizziamo una funzione di perdita che confronta i segnali audio generati con l'audio reale. Ottimizzando questa perdita, miglioriamo le prestazioni del modello nella riproduzione di suoni accurati.

Metriche di valutazione

Misuriamo il successo della nostra riproduzione sonora usando:

  • Rapporto segnale-distorsione (SDR): Questa metrica indica la qualità complessiva del suono prodotto.
  • Errore di ampiezza: Questo mostra quanto il suono riprodotto corrisponde all'originale in termini di distribuzione dell'energia.
  • Errore di fase: Questo valuta quanto accuratamente il tempo delle onde sonore si allinea con il suono originale.

Risultati sperimentali

Il nostro modello ha mostrato risultati comparabili ai modelli all'avanguardia in termini di qualità sonora pur essendo significativamente più veloce. È anche in grado di riprodurre suoni vicini al corpo, cosa che i metodi precedenti faticavano a realizzare.

Dataset utilizzato

Per convalidare il nostro approccio, abbiamo utilizzato un dataset pubblico che cattura dati audio e visivi sincronizzati in ambienti controllati. Questo dataset è stato specificamente progettato per la ricerca sulla modellazione del suono e del corpo.

Dettagli di implementazione

Nel nostro setup sperimentale, abbiamo utilizzato una specifica frequenza di campionamento per l'audio e una frequenza di fotogrammi per i dati corporei. Il modello è stato addestrato utilizzando GPU contemporanee, consentendo un'elaborazione efficiente.

Confronto delle prestazioni

Confrontando il nostro metodo con approcci esistenti, abbiamo scoperto che il nostro sistema ha prestazioni simili in qualità sonora ma con una velocità di elaborazione molto più rapida. Questo significa che il nostro metodo è non solo efficace ma anche pratico per applicazioni in tempo reale.

Visualizzazione dei suoni

Abbiamo creato visualizzazioni per rappresentare come diversi suoni venivano prodotti dal corpo virtuale. Queste visualizzazioni hanno rivelato che il sistema abbinava correttamente i suoni alle loro posizioni sorgente.

Direzioni future

Sebbene il nostro sistema mostri delle promesse, c'è ancora spazio per miglioramenti. Sviluppi futuri potrebbero includere:

  • Ridurre la dipendenza da complessi set di microfoni per facilitare la raccolta di dati sonori.
  • Generalizzare questo approccio per funzionare con una gamma più ampia di fonti audio oltre agli esseri umani.

Conclusione

Il nostro lavoro presenta un metodo per creare ambienti sonori direttamente dai movimenti del corpo e dai segnali audio. Utilizzando primitivi acustici, manteniamo la qualità del suono migliorando significativamente la velocità, permettendo esperienze audio realistiche in ambienti 3D come realtà virtuale e videogiochi.

Questo nuovo approccio offre una base che può aprire la strada a futuri progressi nella tecnologia di riproduzione sonora, rendendo gli ambienti virtuali più ricchi e coinvolgenti per gli utenti.

Fonte originale

Titolo: Modeling and Driving Human Body Soundfields through Acoustic Primitives

Estratto: While rendering and animation of photorealistic 3D human body models have matured and reached an impressive quality over the past years, modeling the spatial audio associated with such full body models has been largely ignored so far. In this work, we present a framework that allows for high-quality spatial audio generation, capable of rendering the full 3D soundfield generated by a human body, including speech, footsteps, hand-body interactions, and others. Given a basic audio-visual representation of the body in form of 3D body pose and audio from a head-mounted microphone, we demonstrate that we can render the full acoustic scene at any point in 3D space efficiently and accurately. To enable near-field and realtime rendering of sound, we borrow the idea of volumetric primitives from graphical neural rendering and transfer them into the acoustic domain. Our acoustic primitives result in an order of magnitude smaller soundfield representations and overcome deficiencies in near-field rendering compared to previous approaches.

Autori: Chao Huang, Dejan Markovic, Chenliang Xu, Alexander Richard

Ultimo aggiornamento: 2024-07-20 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2407.13083

Fonte PDF: https://arxiv.org/pdf/2407.13083

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili