Distinguere tra una risata felice e una risata beffarda
Questo studio esplora come la risata trasmette emozioni attraverso l'analisi del suono.
― 4 leggere min
In questo studio, abbiamo esaminato la risata per vedere se potevamo distinguere tra risate felici e risate che prendono in giro o deridono qualcuno. Abbiamo raccolto campioni audio da un database chiamato Google AudioSet, che contiene una varietà di suoni, comprese le risate. Il nostro obiettivo era capire se potevamo identificare risate che rappresentano interazioni amichevoli rispetto a risate che esprimono un sentimento negativo.
Raccolta Dati
Abbiamo iniziato scegliendo campioni di risate dal Google AudioSet. Ci siamo concentrati su risate che erano chiaramente positive (come risate gioiose) o negative (come risate beffarde). Avevamo un insieme di regole per scegliere quali campioni utilizzare:
- La risata doveva far parte di una chiara situazione sociale dove si poteva dire se era amichevole o derisoria.
 - Abbiamo incluso solo risate di uomini adulti per mantenere tutto coerente.
 
Abbiamo escluso campioni con scarsa qualità audio, come quelli troppo rumorosi o con suoni sovrapposti. Dopo una selezione attenta, abbiamo ottenuto 90 campioni di risate: 45 di risate felici e 45 di risate beffarde.
Panoramica degli Esperimenti
Abbiamo condotto due tipi principali di esperimenti:
- Analisi Fonetica: Abbiamo studiato i suoni delle risate per comprenderne meglio le caratteristiche.
 - Test di Machine Learning: Abbiamo usato diversi metodi di machine learning per vedere se potevamo classificare automaticamente i tipi di risate.
 
Esperimento di Percezione
Per il nostro esperimento di percezione, abbiamo invitato i partecipanti ad ascoltare i campioni di risate e descrivere come si sentivano. I partecipanti potevano scegliere tra tre opzioni:
- a) Piacevole, amichevole o affettuoso
 - b) Sgradevole, aggressivo o ostile
 - c) Altro
 
Avevamo un mix di partecipanti maschi e femmine, tra i 23 e i 35 anni. Hanno ascoltato ciascun campione di risate e poi hanno selezionato la loro risposta.
Risultati dell'Esperimento di Percezione
Dalle risposte, abbiamo scoperto che le persone erano in grado di identificare correttamente le risate felici più delle risate beffarde. Infatti, l'87% dei campioni di risate felici è stato riconosciuto correttamente rispetto al 64% dei campioni di risate beffarde. Questo dimostra che gli ascoltatori riescono spesso a distinguere tra questi due tipi di risate semplicemente ascoltandole.
Caratteristiche Acustiche delle Risate
Poi, abbiamo esaminato le caratteristiche sonore dei campioni di risate per vedere cosa le rendeva diverse. Ci siamo concentrati su diverse caratteristiche chiave:
- Durata: Quanto a lungo è durata la risata.
 - Altezza (F0): La frequenza dei suoni delle risate.
 - Volume: Quanto era alta la risata.
 
Abbiamo utilizzato un software speciale per analizzare queste caratteristiche. In modo interessante, mentre abbiamo trovato alcune tendenze, non tutte le differenze erano significative. Ad esempio, abbiamo notato che le risate beffarde tendevano ad avere un'altezza più alta e un suono più monotono rispetto alle risate felici, che spesso avevano un'ampia gamma di altezza e più variazioni di volume.
Analisi di Machine Learning
Per testare ulteriormente i nostri risultati, abbiamo impiegato tecniche di machine learning. Abbiamo utilizzato vari algoritmi per cercare di classificare i campioni di risate in base alle loro caratteristiche acustiche. Non avevamo un grande dataset, quindi abbiamo usato un metodo chiamato cross-validation, che ci ha permesso di testare i nostri modelli senza aver bisogno di un set di addestramento separato.
Abbiamo provato diversi modelli di machine learning, compresi i Support Vector Machines (SVM) e un algoritmo chiamato XGBoost. I nostri risultati hanno mostrato che questi algoritmi potevano anche distinguere tra risate felici e beffarde, sostenendo i nostri risultati precedenti dall'esperimento di percezione.
Risultati Chiave
Tassi di Riconoscimento: I nostri ascoltatori sono stati in grado di differenziare correttamente tra i due tipi di risate sopra il livello del caso, dimostrando che le risate portano chiari segnali emotivi.
Caratteristiche Sonore: Diverse caratteristiche hanno aiutato a distinguere le risate beffarde da quelle felici, in particolare nell'altezza e in alcune misure di intensità.
Accuratezza del Machine Learning: I nostri modelli di machine learning sono stati in grado di classificare i tipi di risate con successo, con le migliori prestazioni ottenute usando SVM con caratteristiche acustiche specifiche.
Conclusione
Questa ricerca evidenzia come le risate possano trasmettere emozioni diverse e come possiamo analizzarle usando sia la percezione umana che le tecniche di machine learning. Abbiamo scoperto che le persone sono generalmente brave a riconoscere le risate felici rispetto a quelle beffarde. Inoltre, alcune caratteristiche sonore specifiche possono indicare se una risata è amichevole o beffarda.
Direzioni Future
Guardando avanti, c'è spazio per ulteriori studi in quest'area. Raccomandiamo di raccogliere più campioni di risate da una gamma diversificata di persone per costruire un database più ampio. Comprendere le risate può avere applicazioni pratiche, come migliorare i sistemi di comunicazione e potenziare i dialoghi automatizzati.
In sintesi, la capacità di differenziare tra i tipi di risate basate sui suoni apre nuove strade sia per l'analisi delle interazioni sociali che per i progressi tecnologici nel riconoscimento delle emozioni.
Titolo: Happy or Evil Laughter? Analysing a Database of Natural Audio Samples
Estratto: We conducted a data collection on the basis of the Google AudioSet database by selecting a subset of the samples annotated with \textit{laughter}. The selection criterion was to be present a communicative act with clear connotation of being either positive (laughing with) or negative (being laughed at). On the basis of this annotated data, we performed two experiments: on the one hand, we manually extract and analyze phonetic features. On the other hand, we conduct several machine learning experiments by systematically combining several automatically extracted acoustic feature sets with machine learning algorithms. This shows that the best performing models can achieve and unweighted average recall of .7.
Autori: Aljoscha Düsterhöft, Felix Burkhardt, Björn W. Schuller
Ultimo aggiornamento: 2023-05-23 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2305.14023
Fonte PDF: https://arxiv.org/pdf/2305.14023
Licenza: https://creativecommons.org/licenses/by-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.