Simple Science

Scienza all'avanguardia spiegata semplicemente

# Ingegneria elettrica e scienze dei sistemi# Elaborazione dell'audio e del parlato# Suono

Migliorare la qualità del suono negli auricolari

La ricerca svela nuovi modelli per migliorare la chiarezza della voce negli auricolari smart.

― 5 leggere min


Modelli di suono perModelli di suono perauricolari di nuovagenerazionenonostante il rumore.della voce nei dispositivi audioNuovi modelli migliorano la chiarezza
Indice

Le hearables sono auricolari intelligenti che uniscono altoparlanti e microfoni, spesso usati in posti rumorosi. Anche se aiutano gli utenti a sentire meglio gli altri, possono anche migliorare la voce dell'utente stesso. Questo è particolarmente utile quando si parla in un ambiente rumoroso, dove i rumori esterni possono rendere difficile sentire se stessi.

I microfoni intraauricolari, posizionati dentro il canale uditivo, possono ridurre il rumore esterno. Tuttavia, hanno alcuni svantaggi. Quando qualcuno parla, il suono registrato da questi microfoni proviene principalmente dalle vibrazioni del corpo. Questo spesso porta a una scarsa qualità del suono, soprattutto per le frequenze basse e alte. Questo problema deriva da come il suono viaggia attraverso l'orecchio e dalla forma del canale uditivo.

Per migliorare la qualità del suono dei microfoni intraauricolari, sono stati suggeriti diversi metodi. Questi includono tecniche per estendere l'ampiezza del suono, bilanciare le frequenze e ridurre il rumore. Tuttavia, questi metodi spesso richiedono molti dati da registrazioni reali, che possono essere difficili da ottenere.

Il Problema con i Microfoni Intraauricolari

Quando qualcuno parla indossando le hearables, la propria voce può suonare diversa a causa di come il suono viaggia attraverso il canale uditivo. Il suono che arriva al microfono intraauricolare è influenzato da diversi fattori, come da dove proviene il suono e come la persona muove la bocca mentre parla. Questo porta a caratteristiche sonore uniche che variano a seconda di cosa sta dicendo la persona.

Inoltre, il Rumore di fondo, come il respiro o il battito cardiaco, può essere captato dal microfono intraauricolare. A causa di questi fattori, è importante avere un buon modello che possa rappresentare accuratamente come la voce di una persona viene trasferita dall'esterno al microfono intraauricolare.

Migliorare la Qualità del Suono

Per affrontare il problema della scarsa qualità del suono nelle registrazioni intraauricolari, i ricercatori stanno lavorando per creare modelli che possano prevedere meglio come si comporta il suono. Un approccio prevede di utilizzare registrazioni del parlato di una persona per identificare come le caratteristiche sonore cambiano a seconda dei fonemi (unità di suono) che stanno producendo.

Ci sono due tipi principali di modelli: uno che non cambia a seconda di cosa viene detto (indipendente dal parlato) e uno che varia in base alle parole (dipendente dal parlato). Il modello indipendente dal parlato tratta tutto il parlato allo stesso modo, mentre il modello dipendente dal parlato utilizza informazioni specifiche sui fonemi per creare una rappresentazione più accurata di come il suono viaggia nell'orecchio.

L'Approccio Adottato

Per creare il modello dipendente dal parlato, i ricercatori devono prima analizzare il parlato registrato per determinare quale fonema viene pronunciato in ogni momento. Poi raccolgono informazioni su come questi fonemi interagiscono con il microfono intraauricolare. Questo porta a una serie di modelli che possono prevedere il suono catturato dal microfono intraauricolare in base ai fonemi parlati.

Il passo successivo è simulare come suonerebbe la registrazione intraauricolare utilizzando entrambi gli approcci di modellazione. Ogni approccio viene testato utilizzando registrazioni di diversi parlatori per valutare quanto bene si comportano in varie situazioni, incluso quando il modello non corrisponde alla voce del parlante.

Valutazione dei Modelli

Per valutare quanto bene funzionano questi modelli, i ricercatori hanno registrato discorsi di diversi madrelingua tedeschi. Hanno utilizzato un dispositivo hearable specifico per queste registrazioni. Ogni parlante ha prodotto una serie di frasi, che sono state poi utilizzate per testare sia il modello indipendente che quello dipendente dal parlato.

I risultati sono stati confrontati osservando quanto accuratamente ciascun modello potesse ricreare le registrazioni intraauricolari. I ricercatori hanno esaminato due scenari chiave: quando il modello corrispondeva alla voce del parlante e quando veniva applicato a un parlante diverso.

Risultati della Valutazione

Nei test in cui il modello corrispondeva allo stesso parlante delle registrazioni, il modello dipendente dal parlato ha funzionato significativamente meglio rispetto al modello indipendente. È stato in grado di prevedere le registrazioni del microfono intraauricolare con maggiore precisione, il che indica che la modellazione dei fonemi fornisce informazioni preziose per migliorare la qualità del suono.

Tuttavia, quando il modello è stato applicato a un parlante diverso, i risultati hanno mostrato che entrambi i modelli hanno avuto prestazioni ridotte. Questa flessione è stata più evidente nel modello indipendente, che ha faticato ad adattarsi alla voce del nuovo parlante. Tuttavia, il modello dipendente dal parlato ha comunque superato il modello indipendente anche in questo scenario di disaccordo.

Implicazioni Pratiche

Cosa significa tutto ciò per gli utenti delle hearables? I risultati suggeriscono che utilizzare un modello dipendente dal parlato può portare a un suono più chiaro e naturale quando gli utenti comunicano in ambienti rumorosi. Questo può migliorare l'esperienza di utilizzo delle hearables, consentendo una comunicazione migliore senza l'interferenza del rumore di fondo.

Gli ingegneri audio e gli sviluppatori possono utilizzare queste intuizioni per creare algoritmi migliori che migliorino la qualità delle registrazioni intraauricolari. Con il progresso della tecnologia, l'obiettivo sarà rendere le hearables ancora più efficaci nel catturare un parlato chiaro, soprattutto in ambienti difficili.

Direzioni Future

Avanzando, è necessaria ulteriore ricerca per affinare ulteriormente questi modelli. Raccogliendo dataset più ampi e testando diversi tipi di fonemi, i ricercatori possono migliorare l'accuratezza dei modelli dipendenti dal parlato. Esplorare vari scenari e ambienti aiuterà anche a sviluppare soluzioni robuste per diversi utenti.

Dovrebbe essere prestata maggiore attenzione anche agli effetti del rumore corporeo sulle registrazioni. Poiché i microfoni intraauricolari catturano sia la voce che i suoni di fondo, creare modelli che considerano questi fattori sarà cruciale.

Conclusione

Le hearables stanno rapidamente diventando parte della nostra vita quotidiana e affrontare le sfide che ne derivano è essenziale per migliorare la qualità del suono. Il lavoro svolto nella modellazione delle caratteristiche del parlato può portare a miglioramenti significativi nel modo in cui sentiamo noi stessi in ambienti rumorosi. Concentrandosi sui suoni particolari che produciamo, è possibile creare esperienze audio più chiare e accurate nelle hearables. Con il progresso continuato, il potenziale per migliorare la comunicazione attraverso la tecnologia continua a crescere.

Fonte originale

Titolo: Speech-dependent Modeling of Own Voice Transfer Characteristics for In-ear Microphones in Hearables

Estratto: Many hearables contain an in-ear microphone, which may be used to capture the own voice of its user in noisy environments. Since the in-ear microphone mostly records body-conducted speech due to ear canal occlusion, it suffers from band-limitation effects while only capturing a limited amount of external noise. To enhance the quality of the in-ear microphone signal using algorithms aiming at joint bandwidth extension, equalization, and noise reduction, it is desirable to have an accurate model of the own voice transfer characteristics between the entrance of the ear canal and the in-ear microphone. Such a model can be used, e.g., to simulate a large amount of in-ear recordings to train supervised learning-based algorithms. Since previous research on ear canal occlusion suggests that own voice transfer characteristics depend on speech content, in this contribution we propose a speech-dependent system identification model based on phoneme recognition. We assess the accuracy of simulating own voice speech by speech-dependent and speech-independent modeling and investigate how well modeling approaches are able to generalize to different talkers. Simulation results show that using the proposed speech-dependent model is preferable for simulating in-ear recordings compared to using a speech-independent model.

Autori: Mattes Ohlenbusch, Christian Rollwage, Simon Doclo

Ultimo aggiornamento: 2023-09-15 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2309.08294

Fonte PDF: https://arxiv.org/pdf/2309.08294

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili