Simple Science

Scienza all'avanguardia spiegata semplicemente

# Ingegneria elettrica e scienze dei sistemi# Elaborazione dell'audio e del parlato# Suono

Capire la simpatia della voce nel design tecnologico

Questo studio esamina come le preferenze vocali variano tra diversi ascoltatori.

― 5 leggere min


Preferenze vocaliPreferenze vocalianalizzateascoltatori.le voci vengono valutate dagliUno studio rivela informazioni su come
Indice

Questo studio si concentra sulla piacevolezza della voce, che si riferisce a quanto le persone apprezzano sentire certe voci. Capire cosa rende una voce attraente può aiutare a progettare voci per vari sistemi di riconoscimento vocale, come quelli usati negli assistenti vocali e negli annunci. Questa ricerca mira a scoprire quali voci sono preferite e se diverse caratteristiche degli ascoltatori-come genere e età-influenzano le loro preferenze.

Il Corpus CocoNut-Humoresque

Per esplorare queste domande, i ricercatori hanno creato il corpus CocoNut-Humoresque. Si tratta di una vasta collezione di campioni vocali provenienti da vari parlanti, insieme a valutazioni degli ascoltatori su quanto piaceva loro ogni voce. Un totale di 885 persone hanno partecipato valutando 1.800 segmenti vocali che coprono una vasta gamma di caratteristiche vocali.

Metodologia

Come parte dello studio, i ricercatori hanno raccolto diversi attributi per ogni parlante, come il loro genere, età e persino i loro video preferiti su YouTube. Queste informazioni permettono un’analisi più approfondita su come la piacevolezza della voce si relaziona sia ai parlanti che agli ascoltatori. L'obiettivo era capire le influenze di questi fattori sulla preferenza vocale.

Importanza della Piacevolezza della Voce

La piacevolezza della voce è importante per progettare voci accattivanti nella tecnologia. Ad esempio, se gli utenti possono scegliere la voce che preferiscono per un assistente vocale, è probabile che abbiano un'esperienza migliore. Inoltre, le aziende possono trarre vantaggio dall'utilizzare voci attraenti negli annunci per catturare l'attenzione del loro pubblico target.

Ricerche Precedenti

Vari studi hanno esaminato la piacevolezza della voce, ma spesso si sono concentrati su segmenti vocali brevi o caratteristiche acustiche di base. Lavori precedenti non hanno esaminato in modo approfondito come fattori come stili di parola, accenti o diversi background degli ascoltatori influenzino la preferenza vocale. C'è bisogno di un'analisi più completa che coinvolga una gamma più ampia di voci e più ascoltatori.

Un Nuovo Approccio

Il corpus CocoNut-Humoresque permette di avere una nuova prospettiva su queste questioni. Contiene frasi più lunghe e significative anziché solo suoni brevi. Raccogliendo valutazioni di piacevolezza per questi campioni più lunghi, i ricercatori possono analizzare più di semplici qualità vocali di base.

Partecipazione degli Ascoltatori

Gli ascoltatori hanno valutato la piacevolezza di ogni voce su una scala da 1 a 6, dove 1 significa che non gli piaceva per niente la voce e 6 significa che gli piaceva completamente. Per assicurarsi che gli ascoltatori si concentrassero sulla qualità della voce e non sul significato delle parole, è stato chiesto loro di ignorare il contenuto del discorso mentre valutavano.

Attributi degli Ascoltatori

Oltre a valutare le voci, i partecipanti hanno fornito informazioni sul proprio genere, età e video preferiti su YouTube. Questi dati demografici consentono ai ricercatori di analizzare le tendenze nella piacevolezza della voce in base al background dell'ascoltatore. Lo studio ha incluso un gruppo diversificato di ascoltatori, con circa il 59% che si identificava come maschio e il 40% come femmina, e età che vanno dagli adolescenti a oltre 59 anni.

Analizzando la Piacevolezza della Voce

I ricercatori hanno esaminato come diversi attributi degli ascoltatori influenzassero le loro valutazioni. Confrontando i punteggi dati da ascoltatori maschi e femmine, sono emerse differenze notevoli. Gli ascoltatori maschi tendevano a valutare le voci femminili in modo più attraente rispetto a quelle maschili, mentre le ascoltatrici femmine non mostravano una preferenza così marcata.

Pregiudizi di genere

I pregiudizi di genere sono emersi durante l'analisi. Gli ascoltatori maschi hanno valutato le voci femminili più in alto, mentre le ascoltatrici femmine hanno dato punteggi più equilibrati per entrambi i generi. Questo suggerisce che le ascoltatrici femmine possono valutare le voci in modo diverso e mostrare meno pregiudizi basati sul genere.

Pregiudizi di Età

Oltre al genere, i ricercatori hanno esaminato i pregiudizi di età tra gli ascoltatori. Hanno classificato gli ascoltatori in tre gruppi di età: sotto i 30, tra i 30 e i 49 e 50 e oltre. Gli ascoltatori più giovani generalmente davano punteggi più alti per la piacevolezza della voce, mentre gli ascoltatori più anziani tendevano a valutare le voci più in basso.

Analisi Campione per Campione

Lo studio ha anche esaminato attentamente specifici campioni vocali per identificare altri fattori di piacevolezza oltre agli attributi di base. Alcune voci sono risultate preferite da un genere ma non dall'altro. Ad esempio, una voce maschile giovane è stata valutata positivamente dagli ascoltatori femminili, mentre una voce femminile giovane ha ricevuto punteggi alti dagli ascoltatori maschili.

Fattori che Influenzano la Piacevolezza

Il tono e altre caratteristiche acustiche delle voci si sono rivelati fattori critici nelle differenze di preferenza. Tuttavia, lo studio ha rivelato che la piacevolezza è influenzata da una combinazione di diversi fattori, non semplicemente dal genere del parlante o dall'altezza media della voce.

Conclusione

I risultati del corpus CocoNut-Humoresque forniscono preziose intuizioni sulla piacevolezza della voce. Gli ascoltatori maschi tendono a preferire le voci femminili, mentre gli ascoltatori più giovani generalmente valutano le voci più in alto rispetto a quelli più anziani. Questi risultati evidenziano la natura complessa della preferenza vocale e l'importanza di considerare le caratteristiche degli ascoltatori quando si progettano sistemi vocali accattivanti.

Capendo cosa rende una voce attraente, gli sviluppatori possono creare una tecnologia vocale migliore, migliorando l'esperienza degli utenti e aumentando l'efficacia della comunicazione su varie piattaforme.

Fonte originale

Titolo: Who Finds This Voice Attractive? A Large-Scale Experiment Using In-the-Wild Data

Estratto: This paper introduces CocoNut-Humoresque, an open-source large-scale speech likability corpus that includes speech segments and their per-listener likability scores. Evaluating voice likability is essential to designing preferable voices for speech systems, such as dialogue or announcement systems. In this study, we let 885 listeners rate 1800 speech segments of a wide range of speakers regarding their likability. When constructing the corpus, we also collected the multiple speaker attributes: genders, ages, and favorite YouTube videos. Therefore, the corpus enables the large-scale statistical analysis of voice likability regarding both speaker and listener factors. This paper describes the construction methodology and preliminary data analysis to reveal the gender and age biases in voice likability. In addition, the relationship between the likability and two acoustic features, the fundamental frequencies and the x-vectors of given utterances, is also investigated.

Autori: Hitoshi Suda, Aya Watanabe, Shinnosuke Takamichi

Ultimo aggiornamento: 2024-07-05 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2407.04270

Fonte PDF: https://arxiv.org/pdf/2407.04270

Licenza: https://creativecommons.org/licenses/by-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili