Un modello migliora i compiti di parlare in contesti multilingue, affrontando le sfide del code-switching.
― 6 leggere min
Scienza all'avanguardia spiegata semplicemente
Un modello migliora i compiti di parlare in contesti multilingue, affrontando le sfide del code-switching.
― 6 leggere min
DeFT-Mamba migliora la separazione e la classificazione dei suoni in ambienti rumorosi.
― 5 leggere min
CADA-GAN migliora le performance dei sistemi ASR in vari ambienti di registrazione.
― 6 leggere min
EVA unisce segnali audio e visivi per una migliore precisione nel riconoscimento vocale.
― 5 leggere min
Un nuovo framework semplifica il riconoscimento vocale in ambienti affollati.
― 6 leggere min
Llama-AVSR unisce audio e input visivi per migliorare l'accuratezza del riconoscimento vocale.
― 7 leggere min
WMCodec migliora il watermarking audio per una sicurezza e autenticità migliori.
― 5 leggere min
Nuovi modelli affrontano la classificazione dei suoni con dati di addestramento limitati.
― 6 leggere min
Un nuovo approccio migliora il rilevamento di audio falso usando modelli preaddestrati.
― 5 leggere min
Nuovo metodo migliora la qualità e l'efficienza della generazione del parlato.
― 4 leggere min
Un metodo che combina dati etichettati e non etichettati migliora il rilevamento delle sorgenti sonore.
― 5 leggere min
Scopri come i suoni aiutano i giocatori nel tennis da tavolo.
― 6 leggere min
Un sistema che dà la priorità alla melodia pur offrendo controllo sulla generazione di musica orchestrale.
― 5 leggere min
Un nuovo metodo utilizza l'ombreggiatura virtuale per migliorare il feedback sulla pronuncia degli studenti di lingue.
― 6 leggere min
Nuovi metodi migliorano la qualità audio binaurale in ambienti sonori difficili.
― 8 leggere min
Un nuovo metodo ASR aiuta la tecnologia a capire meglio il linguaggio dei bambini.
― 6 leggere min
Il compositore usa dei prompt testuali per creare composizioni musicali complesse in formato MIDI.
― 6 leggere min
Una risorsa per studiare i modelli vocali nella musica idol giapponese.
― 6 leggere min
ViolinDiff migliora il realismo della musica per violino generata al computer.
― 5 leggere min
Combinare le caratteristiche migliora l'accuratezza nella classificazione dei suoni sott'acqua.
― 6 leggere min
Il transfer learning migliora la classificazione audio per la rilevazione dei suoni sottomarini.
― 6 leggere min
Un nuovo modello crea audio che si abbina al video, migliorando le esperienze media.
― 5 leggere min
Un metodo per potenziare il riconoscimento automatico del parlato mescolando liste di parole chiave con modelli linguistici.
― 5 leggere min
Uno studio sulle tecniche di imitazione vocale usando la tecnologia per migliorare la comunicazione.
― 5 leggere min
Scopri come allenare efficacemente modelli di linguaggio con meno risorse etichettate.
― 7 leggere min
Un'analisi della terminologia di genere nella tecnologia vocale e le sue implicazioni sociali.
― 7 leggere min
Un nuovo framework migliora la rilevazione di eventi sonori sovrapposti in ambienti audio complessi.
― 6 leggere min
Ricerche per migliorare l'identificazione dei suoni degli uccelli tramite tecniche di machine learning.
― 7 leggere min
Un nuovo metodo migliora la creazione automatica di cover per pianoforte usando la tecnologia di trascrizione musicale esistente.
― 7 leggere min
Uno sguardo ai risultati della sfida Codec-SUPERB e ai metodi di misurazione delle performance del codec.
― 5 leggere min
Il progetto MultiMed migliora il riconoscimento vocale automatico per una comunicazione sanitaria migliore.
― 6 leggere min
Un modo nuovo per valutare la qualità audio senza bisogno di riferimenti puliti.
― 6 leggere min
Il framework ECHO migliora l'accuratezza della classificazione del suono usando etichette strutturate e un processo di apprendimento in due fasi.
― 5 leggere min
Nuovo metodo migliora la chiarezza del parlato integrando informazioni visive.
― 5 leggere min
Un nuovo approccio migliora la stima della direzione del suono per relatori in movimento in situazioni difficili.
― 8 leggere min
Il recupero di momenti audio permette di individuare momenti specifici in registrazioni lunghe.
― 5 leggere min
Safe Guard rileva discorsi d'odio in tempo reale durante le interazioni vocali nella VR sociale.
― 6 leggere min
L'IA sta evolvendo per avere conversazioni più naturali.
― 6 leggere min
Un approccio nuovo usa la risonanza magnetica in tempo reale per visualizzare i movimenti della produzione del parlato.
― 6 leggere min
Un nuovo metodo per rilevare le prime riflessioni in una stanza migliora l'esperienza audio.
― 7 leggere min