Migliorare l'estrazione del parlante target con indizi visivi
Un nuovo modello migliora l'estrazione del parlato usando informazioni audio e visive.
― 6 leggere min
Indice
L'Estrazione del parlante target (TSE) punta a catturare il discorso di una persona specifica da un mix di voci e rumore di fondo. Questa tecnica è importante per tanti usi quotidiani, come gli apparecchi acustici, il riconoscimento vocale, la verifica del parlante e il monitoraggio vocale. A differenza di altri metodi che separano i suoni senza sapere su chi concentrarsi, il TSE si basa su informazioni extra per identificare il parlante target.
Gli indizi visivi, specialmente i movimenti delle labbra, possono davvero aiutare con il TSE. Questi indizi non sono influenzati dal rumore di fondo, rendendoli affidabili. Inoltre, spesso si può dedurre cosa sta dicendo una persona solo guardando le sue labbra. Questo rende pratico usare informazioni visive, dato che non richiede di sapere prima chi è il parlante.
Sfide nell'Audio-Visivo TSE
I metodi TSE attuali spesso affrontano difficoltà nel cercare di combinare informazioni audio e visive. Di solito, i dati visivi vengono accelerati per adattarsi al ritmo dei dati audio. Tuttavia, questo può causare problemi perché il tempismo dei segnali audio è molto più preciso rispetto ai segnali visivi. Ad esempio, i dati audio possono avere una velocità di campionamento molto più alta rispetto a quello che il video può catturare.
Ad esempio, mentre i video spesso girano a 25 fotogrammi al secondo (FPS), l'audio può avere una velocità di campionamento molto più alta, fino a 200 FPS in alcuni casi. Una tale discrepanza può ridurre le prestazioni dei sistemi TSE. Quindi, è fondamentale allineare in modo più accurato gli input audio e visivi per migliorare i risultati.
Modello Proposto
Per affrontare queste sfide, presentiamo un nuovo modello che funziona bene per il TSE. Questo modello è progettato per gestire sia i dati audio che quelli visivi alla loro velocità rispettiva. Lo fa suddividendo l'audio in pezzi più piccoli e gestibili. Questo consente alla lunghezza degli input audio di corrispondere a quella degli input visivi.
Il modello comprende varie parti che lavorano insieme per affinare efficacemente le informazioni audio e visive. I tre componenti principali includono:
- IntraTransformer
- InterTransformer
- CrossModalTransformer
IntraTransformer
IntraTransformer si concentra sull'affinamento dei dati audio in piccoli segmenti. Applica tecniche di attenzione all'interno di ogni segmento audio per estrarre caratteristiche dettagliate.
InterTransformer
InterTransformer adotta un approccio più ampio. Guarda ai dati audio e visivi combinati per catturare il contesto generale e le relazioni tra di essi. Questo è essenziale per capire come i segnali audio e visivi interagiscono nel tempo.
CrossModalTransformer
CrossModalTransformer lavora per unire le caratteristiche audio e visive. Usa tecniche di attenzione per mescolare in modo significativo i due tipi di dati, permettendo al modello di apprendere da entrambi simultaneamente.
Codifica Posizionale 2D
Un aspetto importante del nostro modello è il modo in cui rappresenta la posizione dei punti dati negli input audio e visivi. I metodi di codifica posizionale regolari non funzionano bene perché trattano i dati come unidimensionali. Poiché il nostro modello gestisce i dati in due dimensioni, introduciamo un nuovo metodo che considera sia le posizioni orizzontali che quelle verticali.
Questo miglioramento consente al modello di avere una comprensione più chiara delle relazioni all'interno di ciascun segmento audio e tra gli input audio e visivi.
Codifica Audio e Visiva
Il modello inizia con encoder separati per i dati audio e visivi.
Encoder Audio
L'encoder audio estrae caratteristiche dai suoni del parlato misto. Usa una tecnica chiamata convoluzione 1D per elaborare l'audio in modo rapido ed efficiente. L'audio viene suddiviso in segmenti, preparandolo per ulteriori analisi.
Encoder Visivo
L'encoder visivo elabora i dati video, concentrandosi specificamente sui movimenti delle labbra. Usa metodi pre-addestrati per convertire i frame video in caratteristiche visive utili. I due encoder operano in tandem, ma i dati devono essere sincronizzati correttamente per assicurarsi che si allineino nel tempo.
Separatore
Una volta che le caratteristiche audio e visive sono pronte, passano attraverso un componente chiamato Separatore, che comprende i tre transformers menzionati in precedenza. Questa parte del modello si concentra su:
- Affinare le caratteristiche dell'audio da solo.
- Unire le caratteristiche audio e visive in base ai loro tempi.
- Comprendere il contesto generale di entrambi i tipi di dati in relazione tra loro.
Il Separatore è fondamentale per garantire che il modello combini efficacemente i dati audio e visivi, migliorando il processo di estrazione del parlato target.
Addestramento e Performance
Per valutare l'efficacia del nostro modello, l'abbiamo testato su dataset noti progettati per l'estrazione dei parlanti. Questi dataset includevano vari parlanti e livelli di rumore di fondo, il che ci ha aiutato a valutare quanto bene il modello funzionasse in diverse condizioni.
Abbiamo confrontato i risultati del nostro modello con quelli di metodi all'avanguardia consolidati. I risultati hanno indicato che il nostro modello supera gli altri, offrendo una qualità migliore nei segnali di parlato estratti.
Riepilogo dei Risultati
Attraverso vari test, inclusi i confronti con altri modelli, il nostro approccio ha mostrato miglioramenti significativi nella qualità del segnale di parlato. Le metriche misurate includevano:
- Rapporto di segnale a distorsione invariato rispetto alla scala (SI-SDR): misura quanto è chiaro il parlato.
- Valutazione percettiva della qualità del parlato (PESQ): misura come gli esseri umani percepiscono la qualità del parlato.
Il nostro modello ha costantemente ottenuto punteggi migliori in entrambe le aree rispetto ai metodi esistenti. In particolare, il nostro modello ha generato segnali di parlato più puliti e ha fornito una migliore esperienza di ascolto complessiva.
Importanza degli Indizi Visivi
I nostri risultati sottolineano l'importanza di usare informazioni visive, in particolare il movimento delle labbra, per migliorare le prestazioni dell'estrazione del parlato. I vantaggi di usare indizi visivi includono:
- Non sono influenzati dal rumore di fondo.
- Possono fornire intuizioni dirette sul contenuto parlato.
- Consentono un uso pratico senza necessità di una registrazione precedente del parlante.
Conclusione
Il nuovo modello che abbiamo presentato offre una soluzione robusta per l'estrazione del parlante target, affrontando le sfide poste dai diversi tempi nei dati audio e visivi. Sfruttando tecniche di transformer avanzate e introducendo una codifica posizionale efficace, il nostro approccio migliora l'intero processo di estrazione.
I nostri risultati dimostrano il valore di combinare informazioni visive e audio, mostrando che un modello a doppia scala porta a prestazioni migliori. Questo lavoro non solo contribuisce al campo dell'elaborazione del parlato, ma promette anche applicazioni reali in apparecchi acustici, riconoscimento vocale e altro.
Attraverso una continua ricerca e sviluppo, puntiamo a perfezionare ulteriormente le nostre tecniche, fornendo strumenti ancora più efficaci per estrarre il parlato in vari ambienti rumorosi.
Titolo: AV-SepFormer: Cross-Attention SepFormer for Audio-Visual Target Speaker Extraction
Estratto: Visual information can serve as an effective cue for target speaker extraction (TSE) and is vital to improving extraction performance. In this paper, we propose AV-SepFormer, a SepFormer-based attention dual-scale model that utilizes cross- and self-attention to fuse and model features from audio and visual. AV-SepFormer splits the audio feature into a number of chunks, equivalent to the length of the visual feature. Then self- and cross-attention are employed to model and fuse the multi-modal features. Furthermore, we use a novel 2D positional encoding, that introduces the positional information between and within chunks and provides significant gains over the traditional positional encoding. Our model has two key advantages: the time granularity of audio chunked feature is synchronized to the visual feature, which alleviates the harm caused by the inconsistency of audio and video sampling rate; by combining self- and cross-attention, feature fusion and speech extraction processes are unified within an attention paradigm. The experimental results show that AV-SepFormer significantly outperforms other existing methods.
Autori: Jiuxin Lin, Xinyu Cai, Heinrich Dinkel, Jun Chen, Zhiyong Yan, Yongqing Wang, Junbo Zhang, Zhiyong Wu, Yujun Wang, Helen Meng
Ultimo aggiornamento: 2023-06-25 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2306.14170
Fonte PDF: https://arxiv.org/pdf/2306.14170
Licenza: https://creativecommons.org/licenses/by-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.