Questo studio presenta un dataset e un metodo per migliorare l'accuratezza dell'ASR cinese usando il Pinyin.
― 7 leggere min
Scienza all'avanguardia spiegata semplicemente
Questo studio presenta un dataset e un metodo per migliorare l'accuratezza dell'ASR cinese usando il Pinyin.
― 7 leggere min
Questo studio si concentra sul miglioramento della rilevazione dell'audio deepfake usando metodi avanzati.
― 5 leggere min
Capire l'incertezza aumenta l'accuratezza del riconoscimento delle emozioni in situazioni reali.
― 6 leggere min
Un sistema per il riconoscimento vocale in audio multilingue senza bisogno di dati estesi.
― 5 leggere min
Migliorare la tecnologia di anonimizzazione dei parlanti per nove lingue per garantire la privacy.
― 5 leggere min
La ricerca sottolinea il ruolo del video nel migliorare il riconoscimento vocale in ambienti rumorosi.
― 5 leggere min
Un nuovo metodo migliora l'accuratezza nel riconoscere il parlato di più persone.
― 5 leggere min
Esplora come la corteccia uditiva integra il suono nel tempo.
― 6 leggere min
Un nuovo metodo migliora la chiarezza del parlato in ambienti rumorosi usando reti neurali duali.
― 5 leggere min
Il modello XLSR-Transducer è super per la trascrizione in tempo reale con poca roba.
― 5 leggere min
Un nuovo modello migliora la precisione nelle capacità di trascrizione vocale in più lingue.
― 5 leggere min
La ricerca rivela rischi nei modelli di riconoscimento vocale multitasking come Whisper.
― 5 leggere min
TokenVerse semplifica l'analisi delle conversazioni parlate integrando più compiti in un unico modello.
― 6 leggere min
Questo studio esamina il Mix-Training per il riconoscimento delle parole chiave in condizioni di parlato rumoroso.
― 5 leggere min
Migliorare i sistemi di riconoscimento vocale per le lingue con pochi dati online.
― 5 leggere min
Questo studio esamina come le reti neurali interpretano il parlato usando gli spettrogrammi.
― 7 leggere min
Scopri come il contesto migliora la precisione del riconoscimento vocale automatico e del riconoscimento delle parole.
― 5 leggere min
Questo studio usa fiwGAN per esplorare i modelli di armonia vocalica nella lingua assamese.
― 5 leggere min
Un nuovo framework migliora le prestazioni dell'ASR usando dati e risorse limitati.
― 5 leggere min
Questo articolo parla di modi per migliorare la formattazione delle espressioni numeriche nei trascritti automatici.
― 5 leggere min
I ricercatori esplorano approcci senza testo per capire meglio il linguaggio parlato.
― 7 leggere min
Un nuovo modello migliora la chiarezza della voce mirando a rumori ed echi.
― 6 leggere min
Un nuovo set di dati potenzia il settore sanitario con sistemi di domande vocali per le immagini mediche.
― 7 leggere min
Uno studio su come migliorare l'accuratezza delle trascrizioni grazie a un design migliore dei prompt.
― 6 leggere min
Un nuovo approccio migliora i sistemi SER utilizzando descrizioni degli ambienti rumorosi.
― 6 leggere min
Combinare TTS e dati reali migliora notevolmente i sistemi di riconoscimento vocale.
― 4 leggere min
Nuovo metodo migliora la conversione del linguaggio muto in audio comprensibile.
― 6 leggere min
Un nuovo metodo migliora la separazione delle voci in ambienti rumorosi con più parlanti.
― 5 leggere min
Questo studio presenta un metodo per valutare il significato dei segnali sonori.
― 6 leggere min
Nuovi metodi puntano a migliorare il riconoscimento del linguaggio sussurrato nei sistemi automatici.
― 6 leggere min
I modelli di intelligenza artificiale migliorano l'accuratezza delle conversioni da parlato a testo.
― 5 leggere min
Esaminando tecniche per proteggere la privacy mentre si analizzano conversazioni registrate.
― 5 leggere min
Un nuovo modello integra dati audio e visivi per il riconoscimento vocale e la traduzione.
― 6 leggere min
Nuovi metodi migliorano l'accuratezza del riconoscimento vocale per diversi accenti.
― 5 leggere min
Wav2graph crea grafi della conoscenza dal linguaggio parlato per migliorare la comprensione dell'AI.
― 7 leggere min
MulliVC trasforma le voci tra le lingue con una precisione e chiarezza impressionanti.
― 5 leggere min
Il nuovo sistema di navigazione dei robot capisce i comandi vocali attraverso le emozioni.
― 6 leggere min
Il modello TOGGL migliora l'accuratezza della trascrizione in situazioni di discorso sovrapposto.
― 5 leggere min
Un metodo per migliorare la qualità del riconoscimento vocale in ambienti rumorosi.
― 7 leggere min
I ricercatori hanno sviluppato SaSLaW per migliorare l'adattamento della voce delle macchine in vari ambienti.
― 5 leggere min