Un nuovo sistema migliora la chiarezza del parlato in ambienti con più persone che parlano.
― 6 leggere min
Scienza all'avanguardia spiegata semplicemente
Un nuovo sistema migliora la chiarezza del parlato in ambienti con più persone che parlano.
― 6 leggere min
Nuovi metodi migliorano il modo in cui le macchine riconoscono le emozioni nel parlato.
― 6 leggere min
Il modello Frieren migliora la qualità audio e la sincronizzazione per i video.
― 6 leggere min
Un nuovo metodo genera suoni unici partendo dal testo usando un sintetizzatore semplice.
― 8 leggere min
Un nuovo metodo migliora la traduzione del parlato in ambienti rumorosi mantenendo l'espressività.
― 4 leggere min
Un nuovo dataset migliora lo studio dell'identificazione dei Raga nella musica indiana.
― 5 leggere min
Seed-TTS crea una voce realistica partendo dal testo per vari usi.
― 5 leggere min
Nuovo metodo migliora la conversione da parlato a canto usando l'apprendimento auto-supervisionato.
― 7 leggere min
StreamSpeech migliora la traduzione del parlato in tempo reale con efficienza e qualità.
― 5 leggere min
Un nuovo modello migliora il riconoscimento vocale usando più metodi di decodifica.
― 7 leggere min
Uno studio su come migliorare il riconoscimento vocale automatico per i dialetti arabi usando tecniche di modelli efficienti.
― 5 leggere min
Presentiamo BLSP-Emo, un modello che capisce il parlato e le emozioni per interazioni migliori.
― 5 leggere min
Un recente studio ripete risultati chiave sull'interpretazione dei dati usando suoni e immagini.
― 6 leggere min
Il nuovo modello genera musica usando sia informazioni testuali che visive.
― 7 leggere min
Un sistema che collega i suoni con le immagini, migliorando la comprensione delle macchine.
― 6 leggere min
Il nuovo modello ARDiT migliora la sintesi testo-voce e l'editing vocale.
― 6 leggere min
Nuovi metodi migliorano la chiarezza nell'isolamento delle voci da mix audio.
― 4 leggere min
Ehi, ti presento SPICE, un progetto per migliorare le interazioni dell'IA usando informazioni contestuali.
― 8 leggere min
La ricerca introduce il dataset MOSA, migliorando la comprensione degli aspetti visivi e uditivi della musica.
― 7 leggere min
mHuBERT-147 elabora il parlato in più lingue in modo efficiente.
― 5 leggere min
Un nuovo approccio alla captioning audio riduce la dipendenza dai dati abbinati.
― 6 leggere min
Nuovi metodi migliorano il modo in cui le macchine riconoscono le emozioni nel linguaggio umano.
― 6 leggere min
Uno sguardo ai nuovi metodi per capire il parlato sovrapposto durante le conversazioni.
― 8 leggere min
Indagare le vulnerabilità nei metodi di watermarking audio contro minacce reali.
― 8 leggere min
PianoMotion10M offre movimenti delle mani dettagliati per aiutare chi impara a suonare il pianoforte.
― 6 leggere min
Un nuovo modello migliora il match del suono con le azioni visive nei video.
― 11 leggere min
Il nuovo modello migliora le esperienze audio realistiche negli ambienti virtuali.
― 7 leggere min
Questo studio esamina i metodi audio per tracciare i movimenti dei pedoni nelle aree urbane.
― 7 leggere min
Un nuovo dataset migliora la creazione di audio foley per contenuti multimediali.
― 6 leggere min
Nuovi metodi migliorano il riconoscimento vocale in ambienti rumorosi usando tecniche adattive.
― 7 leggere min
SPEAR prevede il comportamento sonoro in spazi 3D usando una raccolta di dati minimale.
― 6 leggere min
Un nuovo metodo migliora la traduzione del parlato in lingue miste in inglese.
― 5 leggere min
Un nuovo metodo migliora l'accuratezza della verifica dell'oratore in ambienti radio difficili.
― 7 leggere min
Nuovo metodo punta sui cambiamenti di ritmo per attacchi vocali furtivi.
― 6 leggere min
GAMA migliora l'elaborazione audio unendo intuizioni su suono e linguaggio.
― 6 leggere min
Un nuovo sistema aiuta a separare il parlato dal rumore per una comunicazione più chiara.
― 7 leggere min
GigaSpeech 2 offre un'enorme raccolta di dati per le lingue a bassa risorsa per migliorare il riconoscimento vocale.
― 5 leggere min
Un nuovo modello migliora la tecnologia da testo a voce con efficienza e adattabilità.
― 6 leggere min
Un nuovo metodo per ottimizzare l'analisi e la sintesi del parlato usando i movimenti del tratto vocale.
― 7 leggere min
Questo studio esamina come i gesti influenzano l'apprendimento dagli agenti virtuali.
― 7 leggere min