Questo studio esamina le debolezze dei modelli SER contro attacchi avversari in diverse lingue.
― 5 leggere min
Scienza all'avanguardia spiegata semplicemente
Questo studio esamina le debolezze dei modelli SER contro attacchi avversari in diverse lingue.
― 5 leggere min
Articoli più recenti
― 5 leggere min
Scopri le tecniche di localizzazione del suono e i loro usi in vari settori.
― 4 leggere min
Nuovo dataset e metodi migliorano la rilevazione dei deepfake audio generati da ALM.
― 6 leggere min
Un clip audio universale può silenziare modelli ASR avanzati come Whisper.
― 6 leggere min
Un dispositivo aiuta a concentrarsi su voci specifiche in posti affollati.
― 6 leggere min
Un nuovo metodo migliora il montaggio audio usando modelli di diffusione per modifiche precise.
― 5 leggere min
SpeechVerse collega la comprensione audio e l'elaborazione del linguaggio per migliorare l'interazione uomo-computer.
― 6 leggere min
Un nuovo set di dati mette in evidenza le differenze di prestazioni tra i gruppi demografici che usano gli assistenti vocali.
― 6 leggere min
Questo articolo esplora le vulnerabilità nei modelli di discorso e i modi per migliorare la loro sicurezza.
― 6 leggere min
Capire e mitigare le allucinazioni nell'AI per performance affidabili.
― 8 leggere min
Un nuovo approccio utilizza reti neurali convoluzionali grafiche per un'analisi efficiente dei dati musicali.
― 9 leggere min
Nuovi metodi migliorano le connessioni tra clip audio e descrizioni testuali.
― 6 leggere min
ROSVOT migliora l'accuratezza nella trascrizione delle voci cantate, anche in ambienti rumorosi.
― 6 leggere min
Esplora come i modelli di linguaggio di grandi dimensioni migliorano la creatività attraverso la generazione multimediale.
― 7 leggere min
Presentiamo un modello che genera audio e video sincronizzati con livelli di rumore misti.
― 6 leggere min
Un nuovo sistema migliora le interazioni tra robot filtrando il discorso sovrapposto.
― 6 leggere min
Questo articolo parla di un nuovo modello semplice per generare audio dalle immagini e viceversa.
― 5 leggere min
I modelli linguistici denoising migliorano la correzione degli errori nei sistemi di riconoscimento vocale usando dati sintetici.
― 8 leggere min
NeRAF crea suoni e visual che si sincronizzano per esperienze immersive in vari campi.
― 6 leggere min
Un nuovo metodo migliora l'allineamento audio-video usando modelli già addestrati.
― 6 leggere min
Usare il deep learning per migliorare il monitoraggio delle emissioni acustiche delle giunture bullonate.
― 8 leggere min
Un nuovo modo per unire canto e danza grazie a tecniche informatiche avanzate.
― 6 leggere min
Scopri un nuovo modo per capire il mixing musicale attraverso l'analisi audio.
― 6 leggere min
Scopri come il speech inpainting sta riportando a nuovo l'audio in vari settori.
― 7 leggere min
Un nuovo sistema migliora la chiarezza del parlato in ambienti con più persone che parlano.
― 6 leggere min
Nuovi metodi migliorano il modo in cui le macchine riconoscono le emozioni nel parlato.
― 6 leggere min
Il modello Frieren migliora la qualità audio e la sincronizzazione per i video.
― 6 leggere min
Un nuovo metodo genera suoni unici partendo dal testo usando un sintetizzatore semplice.
― 8 leggere min
Un nuovo metodo migliora la traduzione del parlato in ambienti rumorosi mantenendo l'espressività.
― 4 leggere min
Un nuovo metodo per creare musica che si adatta in modo efficace ai contenuti video.
― 8 leggere min
Seed-TTS crea una voce realistica partendo dal testo per vari usi.
― 5 leggere min
Nuovo metodo migliora la conversione da parlato a canto usando l'apprendimento auto-supervisionato.
― 7 leggere min
StreamSpeech migliora la traduzione del parlato in tempo reale con efficienza e qualità.
― 5 leggere min
Un nuovo modello migliora il riconoscimento vocale usando più metodi di decodifica.
― 7 leggere min
Uno studio su come migliorare il riconoscimento vocale automatico per i dialetti arabi usando tecniche di modelli efficienti.
― 5 leggere min
Presentiamo BLSP-Emo, un modello che capisce il parlato e le emozioni per interazioni migliori.
― 5 leggere min
Un recente studio ripete risultati chiave sull'interpretazione dei dati usando suoni e immagini.
― 6 leggere min
Un sistema che collega i suoni con le immagini, migliorando la comprensione delle macchine.
― 6 leggere min
Il nuovo modello ARDiT migliora la sintesi testo-voce e l'editing vocale.
― 6 leggere min
Ehi, ti presento SPICE, un progetto per migliorare le interazioni dell'IA usando informazioni contestuali.
― 8 leggere min
La ricerca introduce il dataset MOSA, migliorando la comprensione degli aspetti visivi e uditivi della musica.
― 7 leggere min