Un nuovo framework trasforma i segnali MEG in testo significativo, aiutando la tecnologia di comunicazione.
― 10 leggere min
Scienza all'avanguardia spiegata semplicemente
Un nuovo framework trasforma i segnali MEG in testo significativo, aiutando la tecnologia di comunicazione.
― 10 leggere min
Un nuovo approccio alla captioning audio riduce la dipendenza dai dati abbinati.
― 6 leggere min
Questo studio esamina i metodi audio per tracciare i movimenti dei pedoni nelle aree urbane.
― 7 leggere min
Un nuovo sistema aiuta a separare il parlato dal rumore per una comunicazione più chiara.
― 7 leggere min
Un nuovo sistema aiuta i robot ad apprendere compiti utilizzando audio da dimostrazioni reali.
― 7 leggere min
Uno studio sull'uso di dati testuali e audio per migliorare il riconoscimento delle emozioni.
― 6 leggere min
Nuovo dataset migliora la generazione audio da descrizioni testuali dettagliate.
― 5 leggere min
Presentiamo i dataset MERGE per migliorare la classificazione delle emozioni nella musica.
― 6 leggere min
Uno sguardo ai metodi di creazione e rilevamento dei deepfake.
― 7 leggere min
Esaminare come il feedback durante le collisioni influenzi l'esperienza utente nei luoghi affollati della realtà virtuale.
― 6 leggere min
Un nuovo approccio migliora il rilevamento dei deepfake usando analisi audio-visiva.
― 6 leggere min
Un nuovo metodo migliora la creazione del suono per modelli umani 3D realistici.
― 7 leggere min
Un nuovo metodo combina testo, emozioni e audio per una migliore rilevazione della salute mentale.
― 7 leggere min
Un progetto che offre supporto emotivo tramite risposte audio per chi ne ha bisogno.
― 5 leggere min
Un nuovo modello di testo-audio che usa solo dati pubblici.
― 5 leggere min
OmniBind integra vari tipi di dati per migliorare la comprensione e la generazione dei contenuti.
― 5 leggere min
Esaminando come i codec mantengono i toni emotivi nei dati vocali.
― 6 leggere min
Uno studio su come migliorare i metodi per rilevare la compressione audio con perdita per un suono di qualità migliore.
― 6 leggere min
Un nuovo modello che sincronizza le annotazioni degli accordi con l'audio musicale senza problemi.
― 6 leggere min
Un framework che identifica efficacemente i contenuti deepfake attraverso l'analisi combinata di audio e video.
― 5 leggere min
Un nuovo approccio unisce dati audio, video e testuali per una diagnosi efficace della depressione.
― 8 leggere min
VAT-CMR permette ai robot di recuperare oggetti usando dati visivi, audio e tattili.
― 7 leggere min
UniTalker unisce set di dati per migliorare l’accuratezza dell’animazione facciale.
― 7 leggere min
Style-Talker migliora le conversazioni tra umani e macchine grazie a una maggiore profondità emotiva.
― 9 leggere min
Un nuovo approccio si concentra su piccole incoerenze nella rilevazione dei deepfake.
― 6 leggere min
Un nuovo metodo combina EEG, audio e espressioni facciali per valutare la salute mentale.
― 7 leggere min
Uno sguardo alle complessità dell'identificazione delle tracce audio miste.
― 6 leggere min
Un nuovo modello separa il timbro e la struttura per una creazione audio migliore.
― 7 leggere min
RoboMNIST aiuta i robot a riconoscere diverse attività usando WiFi, video e audio.
― 6 leggere min
X-Codec migliora la generazione audio integrando la comprensione semantica nel processo.
― 6 leggere min
Nuovi metodi migliorano la separazione vocale in ambienti rumorosi.
― 5 leggere min
Un nuovo sistema genera voce da testo usando pochi dati.
― 5 leggere min
Nuovi metodi di watermarking proteggono i creatori nei modelli generativi audio.
― 4 leggere min
Un nuovo framework migliora la generazione di movimenti per animazioni ed esperienze virtuali.
― 6 leggere min
Un nuovo modello semplifica la produzione audio eliminando automaticamente i suoni di respiro.
― 6 leggere min
Un nuovo metodo migliora la trasformazione audio mantenendo melodia e qualità del suono.
― 6 leggere min
Questo studio valuta le reti neurali per replicare le caratteristiche del riverbero a molla.
― 8 leggere min
ParaEVITS migliora l'espressione emotiva nel TTS attraverso la guida del linguaggio naturale.
― 5 leggere min
Nuovi metodi migliorano l'accesso alle notizie parlate segmentando meglio gli argomenti.
― 7 leggere min
SoloAudio migliora l'estrazione del suono usando tecniche avanzate e dati sintetici.
― 5 leggere min