Simple Science

Scienza all'avanguardia spiegata semplicemente

# La biologia# Comportamento e cognizione animale

Avanzamenti nella tecnologia di morphing vocale

I ricercatori ora possono manipolare le voci per capire meglio la percezione.

― 6 leggere min


Voice Morphing LiberatoVoice Morphing Liberatocui percepiamo il suono.Trasformare le voci cambia il modo in
Indice

La morfologia vocale è il processo di cambiamento delle caratteristiche di una voce per creare variazioni o nuovi suoni. Questo è simile a come i ricercatori hanno usato software di morphing facciale per capire meglio come riconosciamo volti ed emozioni. Anche se è relativamente facile manipolare suoni semplici, farlo con suoni complessi come le voci presenta più sfide.

Gli strumenti di morfologia vocale permettono agli scienziati di creare e modificare voci in modi che mantengono intatti i tratti essenziali. Per esempio, i ricercatori possono creare una serie di voci che transitano gradualmente da un'identità all'altra. Questo aiuta a esplorare come percepiamo le differenze nelle voci, come l’età o il genere, senza la confusione aggiuntiva delle differenze fisiche tra i suoni.

Legacy STRAIGHT

Esiste uno strumento open-source chiamato Legacy STRAIGHT che aiuta i ricercatori a manipolare i segnali vocali. Questo strumento è progettato per cambiare il parlato in modi di alta qualità. È stato utile per molti ricercatori, portando a scoperte entusiasmanti nella percezione vocale e nel contenuto emotivo della voce.

Legacy STRAIGHT funziona scomponendo il segnale vocale in parti chiave: la forma sonora generale, la frequenza di base della voce e la casualità del suono. Questo significa che i suoni possono essere levigati o manipolati per creare nuove versioni del suono originale.

STRAIGHT non è solo utile per il parlato, ma può anche essere usato per cambiare altri tipi di suoni vocali, come richiami animali o espressioni emotive nelle voci. Questo consente una gamma più ampia di studi su come comprendiamo sia i suoni umani che non umani.

Introduzione a STRAIGHTMORPH

Il nuovo strumento, STRAIGHTMORPH, ha lo scopo di rendere la morfologia vocale facile per i ricercatori. Si basa sulle capacità di Legacy STRAIGHT e include funzioni aggiuntive che si concentrano sull'estrazione e combinazione delle caratteristiche vocali.

STRAIGHTMORPH è progettato per essere usato in un programma software chiamato Matlab. Gli utenti possono trovare tutti i file necessari disponibili per il download. Una cartella di tutorial include suoni di esempio per aiutare gli utenti a iniziare.

Passo 1 – Estrazione delle informazioni vocali

Il primo passo nell'uso di STRAIGHTMORPH è estrarre le informazioni vocali, definite 'mObjects'. Questi mObjects contengono dettagli importanti su una voce, come la sua forma d'onda, stime di frequenza e livelli di rumore di fondo.

Il processo di estrazione include due passaggi principali che richiedono attenzione. Il primo è la stima della frequenza di base della voce, che è cruciale per una buona qualità del suono nella morfologia. A volte i metodi automatici potrebbero non dare risultati perfetti, quindi gli utenti possono regolare manualmente i limiti di frequenza se necessario.

Il secondo passaggio comporta la definizione di punti di riferimento chiamati ancore. Queste ancore sono importanti per allineare accuratamente i suoni durante la morfologia. Gli utenti devono impostare queste ancore con attenzione per garantire che il processo di morfologia produca risultati di alta qualità.

Una volta creato l'mObject, dovrebbe essere controllato riproducendolo per assicurarsi che suoni come l'originale. Se ci sono differenze evidenti, è meglio ripetere il processo di estrazione.

Passo 2 – Combinare mObjects

Il passo successivo è combinare più mObjects. Questo processo è gestito da una funzione chiamata VoiceMultiMorph. Quando gli utenti vogliono unire voci diverse, caricano i loro mObjects nel software e definiscono quanto di ciascuna voce includere nel prodotto finale.

La chiave di questa parte è impostare 'mRates', che determinano quanto di ciascuna voce contribuisce al nuovo suono. Questo dà agli utenti la possibilità di creare vari blend di voci. Lo strumento gestisce la combinazione delle voci in modo semplice, rendendolo facile da usare per diversi tipi di morfologia vocale.

Esempi di morfologia

Morfologia di due voci

Un esempio comune è la morfologia tra una voce maschile e una femminile che dicono la stessa parola. Quando si combinano questi due suoni, gli utenti possono impostare pesi uguali per entrambe le voci per creare un suono medio, oppure possono regolare i pesi per creare blend specifici.

Questo processo può anche essere applicato alle emozioni, poiché i ricercatori possono voler mescolare voci che mostrano stati emotivi diversi per studiare come percepiamo quei cambiamenti.

Creazione di una serie di voci

Un'altra applicazione interessante è generare una gamma di suoni tra due voci, spesso chiamata continuum. Variare gradualmente i pesi permette agli utenti di creare diverse versioni di un suono che si transizionano dolcemente l'una nell'altra. Questo è utile per studiare come i cambiamenti nelle caratteristiche vocali influenzano la percezione.

Morfologia di più voci

VoiceMultiMorph permette anche ai ricercatori di morfare più di due voci. Quando si trattano più voci, si applicano gli stessi principi. La chiave è caricare tutte le voci desiderate e impostare pesi appropriati per ciascuna. Questo può creare una nuova voce che rappresenta una media o un mix di tutti i suoni inclusi.

Uso della morfologia vocale per stimoli casuali

Oltre a morfare tra voci conosciute, è possibile creare campioni vocali casuali variando i pesi applicati agli mObjects. Questo può essere utile per generare una vasta gamma di suoni per test o sperimentazione.

Oltre le voci umane

Curiosamente, STRAIGHTMORPH non è limitato alle voci umane. Può anche essere usato per combinare voci umane con suoni musicali o richiami animali. Questo apre nuove strade per la ricerca sulla vocalizzazione tra diverse specie.

Per esempio, i ricercatori possono creare un mix tra una voce umana e una nota musicale, portando a esplorazioni su come suoni diversi possano essere percepiti insieme. STRAIGHTMORPH può anche lavorare su suoni animali, purché presentino informazioni di intonazione chiare.

Regolando alcune impostazioni, STRAIGHTMORPH può produrre cambiamenti significativi anche in vocalizzazioni che non sono umane. Per esempio, potrebbe generare nuovi suoni che rappresentano un mix di diversi richiami di primati, aiutando i ricercatori a investigare come gli animali comunicano.

Conclusione

La morfologia vocale è uno strumento potente per la ricerca e la sperimentazione. Con l'aiuto di software come STRAIGHTMORPH, gli scienziati possono manipolare le voci in vari modi, creando una migliore comprensione della percezione e della comunicazione.

Con l'avanzamento della tecnologia, questi strumenti diventeranno probabilmente ancora più raffinati, fornendo nuove intuizioni su come interpretiamo e rispondiamo a suoni diversi. Le potenziali applicazioni della morfologia vocale sono vasti, arrivando in aree come psicologia, linguistica e persino intrattenimento. Che si tratti di studiare le sfumature del parlato o le sottotrame emotive della voce, gli strumenti di morfologia giocheranno un ruolo essenziale nella ricerca futura.

Fonte originale

Titolo: STRAIGHTMORPH: A Voice Morphing Tool for Research in Voice Communication Sciences

Estratto: The purpose of this paper is to make easily available to the scientific community an efficient voice morphing tool called STRAIGHTMORPH and provide a short tutorial on its use with examples. STRAIGHTMORPH consists of a set of Matlab functions allowing to generate high-quality, parametrically-controlled morphs of an arbitrary number of voice samples. A first step consists in extracting an mObject for each voice sample, with accurate tracking of the fundamental frequency contour and manual definition of Time and Frequency anchors corresponding across samples to be morphed. The second step consists in parametrically combining the mObjects to generate novel synthetic stimuli, such as gender, identity or emotion continua, or random combinations. Although STRAIGHTMORPH has been designed for human voices it can work well with other types of sounds such as non-human primate vocalizations.

Autori: Pascal Belin, H. Kawahara

Ultimo aggiornamento: 2024-06-06 00:00:00

Lingua: English

URL di origine: https://www.biorxiv.org/content/10.1101/2024.06.04.597359

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.06.04.597359.full.pdf

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili