I ricercatori stanno migliorando il modo in cui rileviamo automaticamente i suoni degli animali.
― 7 leggere min
Scienza all'avanguardia spiegata semplicemente
I ricercatori stanno migliorando il modo in cui rileviamo automaticamente i suoni degli animali.
― 7 leggere min
Scopri come Whisper si adatta a diversi compiti di parola usando l'ingegneria dei prompt.
― 5 leggere min
FastFit migliora la velocità di generazione del parlato senza perdere qualità del suono.
― 5 leggere min
Un nuovo metodo migliora il rilevamento delle parole chiave nelle registrazioni audio.
― 5 leggere min
Il sistema AED-EEND migliora la diarizzazione degli speaker integrando tecniche avanzate per una precisione migliore.
― 5 leggere min
Pengi unisce comprensione audio e generazione di testo in un unico modello.
― 7 leggere min
Un nuovo metodo migliora i sistemi di riconoscimento delle parole chiave per una migliore performance in audio variabile.
― 5 leggere min
Un nuovo sistema TTS migliora la generazione del parlato in diverse lingue con dati limitati.
― 6 leggere min
CoDi permette di generare contemporaneamente diversi tipi di contenuti da vari input.
― 4 leggere min
Nuove tecniche migliorano la separazione del suono dalle mescole Ambisonics per esperienze audio migliori.
― 7 leggere min
Nuovi metodi che usano la voce sembrano promettenti per identificare i modelli respiratori e le condizioni di salute.
― 5 leggere min
MIDI-Draw permette a chiunque di fare musica disegnando melodie in modo intuitivo.
― 5 leggere min
Nuove tecniche che prendono in prestito dall'elaborazione delle immagini migliorano la valutazione della qualità audio.
― 6 leggere min
Nuovi metodi migliorano la comprensione del parlato da parte delle macchine utilizzando segnali audio e visivi.
― 6 leggere min
Nuovo modello migliora il riconoscimento delle parole chiave in situazioni acustiche difficili.
― 6 leggere min
Un nuovo metodo migliora i modelli di parlato trasferendo conoscenza dai modelli di testo.
― 6 leggere min
Una raccolta di suoni respiratori aiuta a identificare i casi di COVID-19.
― 4 leggere min
Un nuovo modello migliora la verifica dell'identità dell'altoparlante con tecniche efficienti.
― 5 leggere min
Uno sguardo dettagliato alle tecniche di riconoscimento vocale sviluppate per la competizione del 2022.
― 5 leggere min
Un nuovo approccio addestra l'IA a riconoscere meglio il parlato e le emozioni in ambienti rumorosi.
― 6 leggere min
Nuovi metodi puntano a migliorare la comprensione delle dinamiche familiari e della salute mentale dei bambini.
― 7 leggere min
Nuovi metodi di deep learning migliorano le previsioni sul movimento del diaframma del parlante.
― 5 leggere min
Esplorare come ciwGAN possa imparare e rappresentare caratteristiche fonologiche come la nasalità.
― 5 leggere min
Un nuovo modello migliora l'efficienza e l'accuratezza del riconoscimento vocale.
― 5 leggere min
Un nuovo metodo migliora la precisione del riconoscimento vocale usando informazioni contestuali.
― 6 leggere min
I ricercatori usano i GAN per generare discorsi rumorosi da audio pulito, migliorando i modelli di parlato.
― 6 leggere min
Il corpus JNV cattura suoni emotivi diversi in giapponese, arricchendo le collezioni esistenti.
― 6 leggere min
Nuovi metodi migliorano la generazione della risata per interazioni realistiche tra umani e computer.
― 5 leggere min
Uno sguardo su come individuare l'audio fake nel mondo tech di oggi.
― 4 leggere min
Un nuovo metodo migliora il rilevamento delle emozioni nel parlato grazie a tecniche avanzate di transformer.
― 5 leggere min
Usare modelli di testo per migliorare la generazione del parlato per una comprensione migliore.
― 8 leggere min
C-MCR semplifica l'apprendimento multi-modale collegando in modo efficiente le conoscenze esistenti.
― 6 leggere min
FluentSpeech offre una soluzione automatica per rendere l'editing del discorso più fluido.
― 7 leggere min
MDA migliora il riconoscimento vocale ottimizzando i modelli per aree di dati specifiche.
― 6 leggere min
La ricerca mostra che i segnali cerebrali possono aiutare a prevedere i movimenti della lingua durante il parlare.
― 6 leggere min
Il sistema TTS U-DiT migliora la generazione del parlato naturale grazie a un'architettura innovativa.
― 5 leggere min
Un nuovo metodo punta a migliorare i sistemi ASR per i parlanti con disartria.
― 5 leggere min
Migliorare l'identificazione degli speaker combinando suoni e parole parlate nell'audio.
― 5 leggere min
Gli agenti virtuali imparano a imitare i gesti umani per interagire meglio.
― 7 leggere min
Un nuovo metodo per creare sintetizzatori che avvantaggia i musicisti.
― 6 leggere min