Nuovi benchmark migliorano i modelli di separazione audio per musica e intrattenimento.
― 5 leggere min
Scienza all'avanguardia spiegata semplicemente
Nuovi benchmark migliorano i modelli di separazione audio per musica e intrattenimento.
― 5 leggere min
Articoli più recenti
Articoli più recenti
Impara a usare bene FM e PM nel sound design.
― 6 leggere min
Scopri nuovi metodi per migliorare le prestazioni degli apparecchi acustici e la chiarezza del parlato.
― 5 leggere min
Un nuovo metodo migliora i compiti di riconoscimento vocale usando meno dati etichettati.
― 6 leggere min
Questo articolo esamina i recenti miglioramenti nella creazione di descrizioni audio scritte.
― 5 leggere min
Tecnologia di riconoscimento audio efficiente progettata per dispositivi TV a basso consumo.
― 5 leggere min
SCHmUBERT offre un approccio fresco per creare musica simbolica con l'IA.
― 6 leggere min
Usare l'IA per identificare le uova di lumaca rosa invasive per una gestione migliore.
― 6 leggere min
Un nuovo modello aumenta i punteggi di fiducia nei sistemi di riconoscimento vocale.
― 6 leggere min
Nuove tecniche migliorano la comprensione del linguaggio disartrico nei sistemi di comunicazione.
― 5 leggere min
Un nuovo approccio non supervisionato migliora l'isolamento della voce nei mix audio.
― 4 leggere min
Un nuovo benchmark per valutare i modelli di machine learning nella comprensione del parlato tra le lingue.
― 6 leggere min
Questo articolo parla di metodi per migliorare la classificazione dei telefoni usando le caratteristiche audio.
― 7 leggere min
Un nuovo modello migliora la percezione audio e le capacità di ragionamento nell'AI.
― 6 leggere min
NASS migliora l'isolamento vocale in ambienti rumorosi, superando i metodi tradizionali.
― 5 leggere min
Un nuovo modo per migliorare la qualità audio nella creazione di voci sintetiche.
― 6 leggere min
Nuove tecniche migliorano l'efficienza del riconoscimento sonoro e riducono i costi di etichettatura.
― 6 leggere min
Migliorare le metriche di qualità del suono usando nuovi metodi di calcolo del volume.
― 5 leggere min
AlignAtt migliora la traduzione del discorso simultanea con una velocità e una qualità superiori.
― 5 leggere min
Un nuovo metodo garantisce la privacy nella classificazione del linguaggio senza compromettere le prestazioni.
― 6 leggere min
Questo studio mostra come adattare la tecnologia TTS a diversi accenti in modo efficiente.
― 5 leggere min
Il modello AMII migliora la comunicazione per agenti socialmente interattivi attraverso un comportamento non verbale migliore.
― 6 leggere min
Usare l'apprendimento federato per migliorare l'analisi vocale nella diagnosi del Parkinson in diverse lingue.
― 6 leggere min
Questo studio si concentra sul riconoscimento dei dialetti arabi usando metodi avanzati e dati limitati.
― 4 leggere min
Presentiamo un modello che integra diversi tipi di dati per compiti complessi.
― 6 leggere min
I ricercatori stanno migliorando il modo in cui rileviamo automaticamente i suoni degli animali.
― 7 leggere min
Scopri come Whisper si adatta a diversi compiti di parola usando l'ingegneria dei prompt.
― 5 leggere min
Questo studio esamina modi per migliorare l'ASR per lingue a bassa risorsa usando tecniche di dati.
― 5 leggere min
FastFit migliora la velocità di generazione del parlato senza perdere qualità del suono.
― 5 leggere min
Un nuovo metodo migliora il rilevamento delle parole chiave nelle registrazioni audio.
― 5 leggere min
Questo studio presenta un metodo per misurare meglio il movimento della lingua durante il parlato usando dati a raggi X.
― 6 leggere min
Il sistema AED-EEND migliora la diarizzazione degli speaker integrando tecniche avanzate per una precisione migliore.
― 5 leggere min
Pengi unisce comprensione audio e generazione di testo in un unico modello.
― 7 leggere min
Un nuovo approccio punta a ridurre al minimo i ritardi nei sistemi di riconoscimento vocale, mantenendo però l'accuratezza.
― 5 leggere min
Un nuovo metodo migliora i sistemi di riconoscimento delle parole chiave per una migliore performance in audio variabile.
― 5 leggere min
Un nuovo sistema TTS migliora la generazione del parlato in diverse lingue con dati limitati.
― 6 leggere min
CoDi permette di generare contemporaneamente diversi tipi di contenuti da vari input.
― 4 leggere min
Nuove tecniche migliorano la separazione del suono dalle mescole Ambisonics per esperienze audio migliori.
― 7 leggere min
Un nuovo metodo migliora i modelli di linguaggio riducendo al contempo le risorse necessarie.
― 6 leggere min
Nuovi metodi che usano la voce sembrano promettenti per identificare i modelli respiratori e le condizioni di salute.
― 5 leggere min
MIDI-Draw permette a chiunque di fare musica disegnando melodie in modo intuitivo.
― 5 leggere min