Un nuovo approccio non supervisionato migliora l'isolamento della voce nei mix audio.
― 4 leggere min
Scienza all'avanguardia spiegata semplicemente
Un nuovo approccio non supervisionato migliora l'isolamento della voce nei mix audio.
― 4 leggere min
Un nuovo benchmark per valutare i modelli di machine learning nella comprensione del parlato tra le lingue.
― 6 leggere min
Questo articolo parla di metodi per migliorare la classificazione dei telefoni usando le caratteristiche audio.
― 7 leggere min
Un nuovo modello migliora la percezione audio e le capacità di ragionamento nell'AI.
― 6 leggere min
NASS migliora l'isolamento vocale in ambienti rumorosi, superando i metodi tradizionali.
― 5 leggere min
Un nuovo modo per migliorare la qualità audio nella creazione di voci sintetiche.
― 6 leggere min
Nuove tecniche migliorano l'efficienza del riconoscimento sonoro e riducono i costi di etichettatura.
― 6 leggere min
Migliorare le metriche di qualità del suono usando nuovi metodi di calcolo del volume.
― 5 leggere min
AlignAtt migliora la traduzione del discorso simultanea con una velocità e una qualità superiori.
― 5 leggere min
Un nuovo metodo garantisce la privacy nella classificazione del linguaggio senza compromettere le prestazioni.
― 6 leggere min
Questo studio mostra come adattare la tecnologia TTS a diversi accenti in modo efficiente.
― 5 leggere min
Il modello AMII migliora la comunicazione per agenti socialmente interattivi attraverso un comportamento non verbale migliore.
― 6 leggere min
Usare l'apprendimento federato per migliorare l'analisi vocale nella diagnosi del Parkinson in diverse lingue.
― 6 leggere min
Questo studio si concentra sul riconoscimento dei dialetti arabi usando metodi avanzati e dati limitati.
― 4 leggere min
Presentiamo un modello che integra diversi tipi di dati per compiti complessi.
― 6 leggere min
I ricercatori stanno migliorando il modo in cui rileviamo automaticamente i suoni degli animali.
― 7 leggere min
Scopri come Whisper si adatta a diversi compiti di parola usando l'ingegneria dei prompt.
― 5 leggere min
Questo studio esamina modi per migliorare l'ASR per lingue a bassa risorsa usando tecniche di dati.
― 5 leggere min
FastFit migliora la velocità di generazione del parlato senza perdere qualità del suono.
― 5 leggere min
Un nuovo metodo migliora il rilevamento delle parole chiave nelle registrazioni audio.
― 5 leggere min
Questo studio presenta un metodo per misurare meglio il movimento della lingua durante il parlato usando dati a raggi X.
― 6 leggere min
Il sistema AED-EEND migliora la diarizzazione degli speaker integrando tecniche avanzate per una precisione migliore.
― 5 leggere min
Pengi unisce comprensione audio e generazione di testo in un unico modello.
― 7 leggere min
Un nuovo approccio punta a ridurre al minimo i ritardi nei sistemi di riconoscimento vocale, mantenendo però l'accuratezza.
― 5 leggere min
Un nuovo metodo migliora i sistemi di riconoscimento delle parole chiave per una migliore performance in audio variabile.
― 5 leggere min
Un nuovo sistema TTS migliora la generazione del parlato in diverse lingue con dati limitati.
― 6 leggere min
CoDi permette di generare contemporaneamente diversi tipi di contenuti da vari input.
― 4 leggere min
Nuove tecniche migliorano la separazione del suono dalle mescole Ambisonics per esperienze audio migliori.
― 7 leggere min
Un nuovo metodo migliora i modelli di linguaggio riducendo al contempo le risorse necessarie.
― 6 leggere min
Nuovi metodi che usano la voce sembrano promettenti per identificare i modelli respiratori e le condizioni di salute.
― 5 leggere min
MIDI-Draw permette a chiunque di fare musica disegnando melodie in modo intuitivo.
― 5 leggere min
Nuove tecniche che prendono in prestito dall'elaborazione delle immagini migliorano la valutazione della qualità audio.
― 6 leggere min
Nuovi metodi aumentano l'efficienza nei sistemi di riconoscimento vocale senza perdere precisione.
― 5 leggere min
Nuovi metodi migliorano la comprensione del parlato da parte delle macchine utilizzando segnali audio e visivi.
― 6 leggere min
Nuovo modello migliora il riconoscimento delle parole chiave in situazioni acustiche difficili.
― 6 leggere min
i-Code V2 integra visione, lingua e parlato per risposte AI migliori.
― 5 leggere min
Un nuovo metodo migliora i modelli di parlato trasferendo conoscenza dai modelli di testo.
― 6 leggere min
Una raccolta di suoni respiratori aiuta a identificare i casi di COVID-19.
― 4 leggere min
Un nuovo modello migliora la verifica dell'identità dell'altoparlante con tecniche efficienti.
― 5 leggere min
Uno sguardo dettagliato alle tecniche di riconoscimento vocale sviluppate per la competizione del 2022.
― 5 leggere min