Il modello TOGGL migliora l'accuratezza della trascrizione in situazioni di discorso sovrapposto.
― 5 leggere min
Scienza all'avanguardia spiegata semplicemente
Il modello TOGGL migliora l'accuratezza della trascrizione in situazioni di discorso sovrapposto.
― 5 leggere min
Un metodo per migliorare la qualità del riconoscimento vocale in ambienti rumorosi.
― 7 leggere min
I ricercatori hanno sviluppato SaSLaW per migliorare l'adattamento della voce delle macchine in vari ambienti.
― 5 leggere min
Un nuovo dataset mette in evidenza i pregiudizi nei modelli di linguaggio basati su genere ed età.
― 7 leggere min
La ricerca mostra come rendere i modelli di linguaggio più piccoli ed efficienti.
― 5 leggere min
L'addestramento avversariale migliora l'accuratezza del riconoscimento delle parole chiave nel parlato sintetico e reale.
― 5 leggere min
Un nuovo benchmark migliora la valutazione dei sistemi di riconoscimento delle emozioni nel parlato attraverso lingue ed emozioni.
― 6 leggere min
Nuovi metodi migliorano i modelli ASR per più lingue, preservando le conoscenze passate.
― 5 leggere min
Un nuovo approccio migliora il riconoscimento delle frasi con cambio di codice nel linguaggio bilingue.
― 6 leggere min
Un nuovo metodo per gestire meglio lunghe sequenze di dati.
― 5 leggere min
Esaminando come i modelli vocali influenzano il significato e le prestazioni della tecnologia.
― 5 leggere min
Uno sguardo alle complessità dell'identificazione delle tracce audio miste.
― 6 leggere min
O-HuBERT migliora il riconoscimento vocale separando il contenuto dalle informazioni espressive.
― 6 leggere min
Un nuovo metodo migliora il riconoscimento vocale per l'hindi usando tecniche di pseudo-etichettatura.
― 5 leggere min
Un sistema per classificare i dialetti tamil letterari e colloquiali usando le caratteristiche sonore.
― 6 leggere min
Nuovi metodi migliorano la comprensione del computer del parlato sussurrato e normale.
― 5 leggere min
Uno sguardo al micro-batch clipping e ai suoi vantaggi per l'allenamento dei modelli.
― 6 leggere min
La ricerca dimostra come i LLM migliorano il riconoscimento vocale automatico nella lingua giapponese.
― 6 leggere min
Questo articolo esamina come i modelli riconoscono il tono, l'accento e gli accenti di intonazione.
― 5 leggere min
SALSA migliora la precisione del riconoscimento vocale per le lingue a basse risorse integrando i modelli ASR e i modelli linguistici.
― 6 leggere min
Nuovo metodo migliora l'accuratezza dell'ASR usando modelli linguistici per trascrizioni migliori.
― 4 leggere min
Un nuovo sistema corregge gli errori di identificazione dell'oratore per trascrizioni di conversazione più chiare.
― 8 leggere min
Migliorare la chiarezza del parlato tramite filtri ibridi e reti neurali.
― 5 leggere min
Un nuovo modello migliora il riconoscimento vocale combinando in modo efficace input audio e visivi.
― 5 leggere min
Nuovi metodi migliorano il riconoscimento vocale in situazioni difficili con più parlanti.
― 5 leggere min
Un nuovo metodo migliora il riconoscimento vocale automatico mantenendo l'ordine dei suoni nel trasferimento delle conoscenze.
― 4 leggere min
Questo studio analizza come il rumore possa migliorare la resilienza nel riconoscimento del parlato di fronte alle sfide.
― 6 leggere min
Un trasduttore innovativo e leggero migliora l'efficienza e la precisione del riconoscimento vocale.
― 6 leggere min
Questo articolo confronta le rappresentazioni di voce discrete e continue per un riconoscimento vocale efficace.
― 6 leggere min
La ricerca svela come i neuroni nei modelli di linguaggio riconoscono le caratteristiche chiave del suono.
― 7 leggere min
Questo studio esamina come l'autoattenzione influisce sul riconoscimento vocale in turco e inglese.
― 5 leggere min
Un approccio di apprendimento auto-supervisionato riduce la necessità di dati audio etichettati.
― 6 leggere min
TF-Mamba migliora la localizzazione del suono usando un nuovo metodo che integra dati temporali e di frequenza.
― 5 leggere min
La ricerca sui sistemi ASR modulari punta a migliorare le performance in ambienti rumorosi.
― 4 leggere min
Presentiamo DENSE, un metodo che migliora l'estrazione del discorso target usando embedding dinamici.
― 6 leggere min
Questo metodo migliora l'accuratezza del riconoscimento per i nomi rari nei risultati vocali.
― 6 leggere min
Migliorare l'identificazione delle parole parlate tramite indizi visivi in lingue poco supportate.
― 7 leggere min
BigCodec migliora la qualità del suono nella trasmissione audio a bassa bitrate.
― 5 leggere min
Questo articolo parla dei vantaggi di semplificare i modelli transformer per i compiti di riconoscimento vocale.
― 5 leggere min
Sortformer integra la diarizzazione degli speaker e l'ASR per migliorare l'elaborazione audio.
― 5 leggere min