Nuove tecniche che prendono in prestito dall'elaborazione delle immagini migliorano la valutazione della qualità audio.
― 6 leggere min
Scienza all'avanguardia spiegata semplicemente
Nuove tecniche che prendono in prestito dall'elaborazione delle immagini migliorano la valutazione della qualità audio.
― 6 leggere min
Nuovi metodi aumentano l'efficienza nei sistemi di riconoscimento vocale senza perdere precisione.
― 5 leggere min
Nuovi metodi migliorano la comprensione del parlato da parte delle macchine utilizzando segnali audio e visivi.
― 6 leggere min
Nuovo modello migliora il riconoscimento delle parole chiave in situazioni acustiche difficili.
― 6 leggere min
i-Code V2 integra visione, lingua e parlato per risposte AI migliori.
― 5 leggere min
Un nuovo metodo migliora i modelli di parlato trasferendo conoscenza dai modelli di testo.
― 6 leggere min
Una raccolta di suoni respiratori aiuta a identificare i casi di COVID-19.
― 4 leggere min
Un nuovo modello migliora la verifica dell'identità dell'altoparlante con tecniche efficienti.
― 5 leggere min
Uno sguardo dettagliato alle tecniche di riconoscimento vocale sviluppate per la competizione del 2022.
― 5 leggere min
Un nuovo approccio addestra l'IA a riconoscere meglio il parlato e le emozioni in ambienti rumorosi.
― 6 leggere min
Nuovi metodi puntano a migliorare la comprensione delle dinamiche familiari e della salute mentale dei bambini.
― 7 leggere min
Nuovi metodi di deep learning migliorano le previsioni sul movimento del diaframma del parlante.
― 5 leggere min
Esplorare come ciwGAN possa imparare e rappresentare caratteristiche fonologiche come la nasalità.
― 5 leggere min
Un nuovo modello migliora l'efficienza e l'accuratezza del riconoscimento vocale.
― 5 leggere min
Un nuovo metodo migliora la precisione del riconoscimento vocale usando informazioni contestuali.
― 6 leggere min
I ricercatori usano i GAN per generare discorsi rumorosi da audio pulito, migliorando i modelli di parlato.
― 6 leggere min
Il corpus JNV cattura suoni emotivi diversi in giapponese, arricchendo le collezioni esistenti.
― 6 leggere min
Nuovi metodi migliorano la generazione della risata per interazioni realistiche tra umani e computer.
― 5 leggere min
Uno sguardo su come individuare l'audio fake nel mondo tech di oggi.
― 4 leggere min
Usare modelli di testo per migliorare la generazione del parlato per una comprensione migliore.
― 8 leggere min
Le ricerche dimostrano come il testo sintetico possa migliorare efficacemente i sistemi ASR.
― 5 leggere min
C-MCR semplifica l'apprendimento multi-modale collegando in modo efficiente le conoscenze esistenti.
― 6 leggere min
FluentSpeech offre una soluzione automatica per rendere l'editing del discorso più fluido.
― 7 leggere min
MDA migliora il riconoscimento vocale ottimizzando i modelli per aree di dati specifiche.
― 6 leggere min
La ricerca mostra che i segnali cerebrali possono aiutare a prevedere i movimenti della lingua durante il parlare.
― 6 leggere min
Il sistema TTS U-DiT migliora la generazione del parlato naturale grazie a un'architettura innovativa.
― 5 leggere min
Un nuovo metodo punta a migliorare i sistemi ASR per i parlanti con disartria.
― 5 leggere min
Un nuovo metodo migliora la comprensione dei comandi vocali da parte dei computer con meno esempi.
― 5 leggere min
Migliorare l'identificazione degli speaker combinando suoni e parole parlate nell'audio.
― 5 leggere min
Gli agenti virtuali imparano a imitare i gesti umani per interagire meglio.
― 7 leggere min
Un nuovo metodo per creare sintetizzatori che avvantaggia i musicisti.
― 6 leggere min
Un nuovo sistema migliora il riconoscimento degli oratori attivi usando segnali audio e visivi.
― 5 leggere min
Uno sguardo alle sfide e alle difese nei sistemi di verifica automatica dell'identità vocale.
― 5 leggere min
Le reti ottiche permettono trasferimenti di dati super rapidi, plasmando il futuro della tecnologia di comunicazione.
― 5 leggere min
Un nuovo metodo migliora i modelli audio generali per un riconoscimento vocale efficace.
― 7 leggere min
Nuovo modello migliora la comprensione emotiva nei dialoghi.
― 7 leggere min
Un modello combina linguaggio parlato e testo per migliorare l'accuratezza della traduzione.
― 5 leggere min
La ricerca usa modelli di linguaggio umano per analizzare in modo efficace le vocalizzazioni dei Marmoset.
― 6 leggere min
Nuovi metodi migliorano la rilevazione precoce delle malattie respiratorie usando dati sonori.
― 5 leggere min
Questo studio esplora come la risata trasmette emozioni attraverso l'analisi del suono.
― 4 leggere min