Progressi nel riconoscimento vocale a conduzione ossea
Questo studio valuta l'efficacia del parlato a conduzione ossea in ambienti rumorosi.
― 7 leggere min
Indice
Circa 2,2 miliardi di persone nel mondo hanno qualche forma di problemi di vista. Molti di loro si affidano a smartphone e altri dispositivi elettronici per avere informazioni. Tuttavia, digitare o inserire testo con le mani può essere rischioso per chi usa ausili per la mobilità come bastoni o cani guida. Inoltre, la dipendenza visiva della maggior parte dei dispositivi elettronici rende difficile il loro utilizzo per le persone con disabilità visiva. Questo crea una chiara necessità di applicazioni che non richiedano input visivo.
In più, la privacy nel Riconoscimento Vocale è fondamentale, soprattutto in ambienti rumorosi. Molte persone vogliono usare la voce per controllare ma preferiscono farlo in modo discreto per non essere sentite dagli altri. Quindi, trovare modi affidabili per riconoscere la voce, anche quando viene pronunciata a bassa voce in ambienti rumorosi, è vitale non solo per le persone con disabilità ma anche per il pubblico in generale.
Una soluzione promettente è l'uso di microfoni a contatto. Questi microfoni possono catturare il suono che viaggia attraverso l'osso piuttosto che nell'aria, rendendoli meno sensibili al rumore di fondo. Alcuni studi suggeriscono che usare insieme microfoni a conduzione aerea e a conduzione ossea può migliorare l'accuratezza del riconoscimento vocale, soprattutto in luoghi rumorosi.
Contesto
Le ricerche precedenti si sono principalmente concentrate su come la posizione dei microfoni a contatto influisca sulla chiarezza e qualità della voce a conduzione ossea. Gli studi hanno esaminato diverse posizioni dei microfoni sul collo e sulla testa, confermando che la qualità del suono e l'intelligibilità cambiano a seconda di dove viene posizionato il Microfono.
La maggior parte dei sistemi di riconoscimento vocale attualmente disponibili è stata sviluppata per la voce a conduzione aerea, il che li rende meno efficaci per riconoscere la voce registrata con microfoni a contatto. Così, i ricercatori stanno esplorando modi per migliorare la qualità e l'accuratezza del riconoscimento vocale per la voce a conduzione ossea.
Negli ambienti clinici, esistono linee guida per quanto riguarda la pressione da applicare quando si usano dispositivi a conduzione ossea sulla testa. Tuttavia, sono stati condotti pochi studi sulla pressione ottimale necessaria quando si utilizza un microfono a contatto, il che potrebbe influenzare come gli utenti percepiscono il suono.
Mentre alcuni studi hanno esaminato gli effetti di diversi fattori come la posizione del microfono e il genere sull'accuratezza del riconoscimento vocale, non esiste ancora un'analisi completa di tutti questi elementi rispetto alla voce a conduzione ossea.
Domande di ricerca
In questo contesto, emergono diverse domande chiave:
- Quanto sono efficaci i sistemi di riconoscimento vocale comuni per interpretare suoni a conduzione ossea provenienti da diverse aree della testa e del collo?
- In che modo la posizione di un microfono a contatto e le caratteristiche fisiche di una persona influenzano l'accuratezza del riconoscimento vocale?
- Come influisce la pressione applicata dal microfono a contatto sul Comfort dell'Utente e sull'accuratezza del riconoscimento?
- Come si comportano i suoni a conduzione ossea in ambienti rumorosi rispetto ai suoni a conduzione aerea?
- Quali informazioni possiamo ottenere sulle prestazioni del riconoscimento vocale per i suoni a conduzione ossea da diverse posizioni sulla testa e sul collo?
Panoramica dello studio
Questo studio mirava a valutare come le diverse posizioni dei microfoni a contatto sulla testa e sul collo influenzano l'accuratezza del riconoscimento vocale. I risultati dalla testa sono stati confrontati con dati esistenti dall'area del collo.
Per prima cosa, sono stati progettati esperimenti per testare l'accuratezza sia della voce a conduzione ossea che di quella a conduzione aerea in condizioni ideali. Sono stati esaminati gli influssi della posizione del microfono, del genere dell'utente e del tipo di sistema di riconoscimento vocale. Dopo aver valutato l'accuratezza, è stato condotto un esperimento per valutare il disagio dell'utente quando il microfono è attaccato alla testa.
Per simulare le condizioni del mondo reale, è stata creata un'ambiente rumoroso in laboratorio, utilizzando suoni di sottofondo registrati in una città. L'accuratezza del riconoscimento vocale per i microfoni a contatto e aere è stata poi valutata in queste condizioni.
Valutazione del riconoscimento vocale
Per questo studio, sono stati scelti tre sistemi di riconoscimento vocale comunemente usati: uno di Advanced Media, un altro di Google, e un terzo di Microsoft. I sistemi hanno elaborato i dati vocali raccolti tramite microfoni, calcolando il tasso di errore dei caratteri (CER) per valutare l'accuratezza del riconoscimento.
I microfoni sono stati posizionati in vari punti sul collo e sulla testa per raccogliere dati, effettuando confronti approfonditi tra la voce a conduzione aerea e quella a conduzione ossea.
Esperimento I: Misurazione della voce a conduzione ossea
Nel primo esperimento, è stata valutata la voce a conduzione ossea in condizioni ideali. I risultati hanno indicato che la voce a conduzione aerea aveva costantemente tassi di errore più bassi rispetto alla voce a conduzione ossea. Tuttavia, la voce a conduzione ossea registrata dalla testa ha mostrato un'accuratezza migliore rispetto a quella registrata dal collo nella maggior parte dei casi.
Quando si valutano le posizioni del collo, le registrazioni a posizioni inferiori hanno dimostrato maggiore accuratezza rispetto a quelle a posizioni più elevate. Nel caso della testa, i risultati variavano significativamente a seconda della specifica posizione del microfono.
Esperimento II: Valutazione del comfort dell'utente
Nel secondo esperimento, un gruppo di partecipanti ha valutato il proprio comfort mentre indossavano il microfono a contatto sulla testa. In generale, i livelli di disagio sembravano diminuire all'aumentare della pressione del microfono, ma questo schema variava in base alla posizione del microfono. Ad esempio, sono stati osservati livelli di disagio più elevati sulla fronte e sulle tempie, mentre sono stati notati livelli di disagio più bassi per altre aree.
Esperimento III: Prestazioni in ambienti rumorosi
Il terzo esperimento ha esaminato come si comportava la voce a conduzione ossea in ambienti rumorosi. Sia la voce che il rumore di sottofondo sono stati registrati e combinati per simulare le condizioni della vita reale.
I test hanno evidenziato che la voce a conduzione aerea si comportava meglio a livelli di rumore di sottofondo più bassi. Tuttavia, a livelli di rumore più alti, la voce a conduzione ossea ha mostrato prestazioni simili o addirittura migliori rispetto alla voce a conduzione aerea in alcune situazioni.
Questo suggerisce che la voce a conduzione ossea è più resistente al rumore esterno, rendendola un'opzione pratica per ambienti con molto rumore di sottofondo.
Analisi dei risultati
Le analisi dei dati hanno confermato che l'accuratezza della voce a conduzione ossea variava significativamente a seconda delle specifiche posizioni del microfono e del sistema di riconoscimento vocale utilizzato. Ad esempio, non sono stati osservati effetti significativi di genere per le registrazioni effettuate dalla testa.
Quando si valuta il disagio, i risultati hanno indicato che non ci sono state grandi differenze relative alla forza di contatto o alla posizione del microfono. Gli utenti possono selezionare una pressione confortevole senza influenzare l'accuratezza del riconoscimento vocale.
Conclusione
I risultati di questo studio sottolineano il potenziale dei sistemi di riconoscimento vocale a conduzione ossea, in particolare in ambienti rumorosi. Sembra che le posizioni sul mento e sulla fronte abbiano le migliori prestazioni per vari sistemi di riconoscimento vocale.
Anche se questo studio ha fornito preziose intuizioni, esistono limitazioni. La ricerca futura dovrebbe considerare anche come vari fattori come camminare e i movimenti del corpo influenzano il riconoscimento vocale, oltre a esplorare ulteriori caratteristiche influenzanti.
In sintesi, i risultati indicano che il riconoscimento vocale a conduzione ossea può essere uno strumento utile per migliorare l'uso di smartphone e altri dispositivi, in particolare per le persone con disabilità visiva e per altri in ambienti sonori difficili.
Migliorando l'uso dei microfoni a contatto e esplorando ulteriori posizioni, possiamo migliorare l'accessibilità della comunicazione per un'ampia gamma di utenti.
Titolo: Comparative study on the accuracy of speech recognition using a contact microphone attached to the surface of the head and neck
Estratto: The accuracy of speech recognition through an air-conducted microphone can be less accurate under a highly noisy environment or when the volume of the users voice is relatively low. One solution to this problem is the use of contact microphones. However, neither the microphone locations that provide optimal speech recognition accuracy for each user nor the mechanisms underlying these contact forces have been clarified. In this study, we experimentally investigated the effects of placement, contact force, user gender, and speech recognition platform on the accuracy of speech recognition with contact microphones placed on the surface of the head and neck. The experimental results indicated that the mechanism underlying the influence of each factor on speech recognition accuracy differs for speech acquired at the neck and head locations. In particular, the effect of the users gender was significant for the neck-acquired sound, but not the head-acquired sound. The results also revealed that the microphone contact force did not affect the recognition accuracy or user discomfort for the head-acquired sound. Moreover, the results of speech recognition experiments in a simulated noisy environment showed that bone-conducted sounds acquired on the head and neck surfaces were more robust than air-conducted sounds.
Autori: Takumi Asakura, Y. Konuma
Ultimo aggiornamento: 2024-04-20 00:00:00
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2024.04.17.589963
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.04.17.589963.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.