Ingegneria elettrica e scienze dei sistemi - Elaborazione dell'audio e del parlato

RSS

Elaborazione dell'audio e del parlato Ridurre il rumore di fondo per un discorso più chiaro

Un nuovo sistema migliora la chiarezza del parlato in ambienti con più persone che parlano.

2025-08-02T14:10:50+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Progressi nella tecnologia di riconoscimento delle emozioni nella voce

Nuovi metodi migliorano il modo in cui le macchine riconoscono le emozioni nel parlato.

2025-08-02T13:22:15+00:00 ― 6 leggere min

Suono Avanzamenti nella generazione da video a audio con Frieren

Il modello Frieren migliora la qualità audio e la sincronizzazione per i video.

2025-08-02T10:07:55+00:00 ― 6 leggere min

Suono Sintesi audio innovativa da descrizioni testuali

Un nuovo metodo genera suoni unici partendo dal testo usando un sintetizzatore semplice.

2025-08-02T08:30:45+00:00 ― 8 leggere min

Calcolo e linguaggio Progressi nella tecnologia di traduzione vocale

Un nuovo metodo migliora la traduzione del parlato in ambienti rumorosi mantenendo l'espressività.

2025-08-01T13:53:20+00:00 ― 4 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nell'identificazione delle Raga con un nuovo dataset

Un nuovo dataset migliora lo studio dell'identificazione dei Raga nella musica indiana.

2025-08-01T12:16:10+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nella tecnologia Text-to-Speech

Seed-TTS crea una voce realistica partendo dal testo per vari usi.

2025-08-01T10:39:00+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nella tecnologia da parlato a canto

Nuovo metodo migliora la conversione da parlato a canto usando l'apprendimento auto-supervisionato.

2025-08-01T09:50:25+00:00 ― 7 leggere min

Calcolo e linguaggio StreamSpeech: Un Nuovo Modo di Tradurre il Parlato

StreamSpeech migliora la traduzione del parlato in tempo reale con efficienza e qualità.

2025-08-01T03:21:45+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Introducendo il Modello 4D nel Riconoscimento Vocale

Un nuovo modello migliora il riconoscimento vocale usando più metodi di decodifica.

2025-08-01T01:44:35+00:00 ― 7 leggere min

Calcolo e linguaggio Migliorare il riconoscimento vocale arabo tramite la distillazione della conoscenza

Uno studio su come migliorare il riconoscimento vocale automatico per i dialetti arabi usando tecniche di modelli efficienti.

2025-07-31T23:18:50+00:00 ― 5 leggere min

Calcolo e linguaggio BLSP-Emo: Un Nuovo Passo nell'AI Empatica

Presentiamo BLSP-Emo, un modello che capisce il parlato e le emozioni per interazioni migliori.

2025-07-31T21:41:40+00:00 ― 5 leggere min

Interazione uomo-macchina Rivisitare l'Interpretazione dei Dati: Studio di Suoni e Immagini

Un recente studio ripete risultati chiave sull'interpretazione dei dati usando suoni e immagini.

2025-07-31T20:04:30+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Combinare Testo e Immagini per la Generazione Musicale

Il nuovo modello genera musica usando sia informazioni testuali che visive.

2025-07-31T12:47:15+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli DenseAV: Collegare Suoni e Immagini

Un sistema che collega i suoni con le immagini, migliorando la comprensione delle macchine.

2025-07-31T10:21:30+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nella sintesi vocale con ARDiT

Il nuovo modello ARDiT migliora la sintesi testo-voce e l'editing vocale.

2025-07-31T07:55:45+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Miglioramenti nelle Tecniche di Separazione del Parlato

Nuovi metodi migliorano la chiarezza nell'isolamento delle voci da mix audio.

2025-07-31T04:41:25+00:00 ― 4 leggere min

Calcolo e linguaggio Migliorare la comprensione dell'IA tramite l'analisi contestuale

Ehi, ti presento SPICE, un progetto per migliorare le interazioni dell'IA usando informazioni contestuali.

2025-07-30T23:49:55+00:00 ― 8 leggere min

Suono Advancements in Cross-Modal Music Processing

La ricerca introduce il dataset MOSA, migliorando la comprensione degli aspetti visivi e uditivi della musica.

2025-07-30T23:01:20+00:00 ― 7 leggere min

Calcolo e linguaggio Presentiamo mHuBERT-147: Un Modello di Voce Compatto

mHuBERT-147 elabora il parlato in più lingue in modo efficiente.

2025-07-30T22:12:45+00:00 ― 5 leggere min

Suono Trasformare la didascalia audio tramite metodi innovativi

Un nuovo approccio alla captioning audio riduce la dipendenza dai dati abbinati.

2025-07-30T21:24:10+00:00 ― 6 leggere min

Suono Sviluppi nel Riconoscimento delle Emozioni Tramite il Parlare

Nuovi metodi migliorano il modo in cui le macchine riconoscono le emozioni nel linguaggio umano.

2025-07-30T18:09:50+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nella tecnologia di diarizzazione del parlato target

Uno sguardo ai nuovi metodi per capire il parlato sovrapposto durante le conversazioni.

2025-07-30T14:06:55+00:00 ― 8 leggere min

Apprendimento automatico Sfide nelle tecniche di watermarking audio

Indagare le vulnerabilità nei metodi di watermarking audio contro minacce reali.

2025-07-30T13:18:20+00:00 ― 8 leggere min

Suono Presentiamo PianoMotion10M: un nuovo dataset per imparare il pianoforte

PianoMotion10M offre movimenti delle mani dettagliati per aiutare chi impara a suonare il pianoforte.

2025-07-30T01:09:35+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Progressi nella Generazione di Suoni da Video

Un nuovo modello migliora il match del suono con le azioni visive nei video.

2025-07-29T23:32:25+00:00 ― 11 leggere min

Suono Sviluppi nel Rendering Audio 3D con AVGS

Il nuovo modello migliora le esperienze audio realistiche negli ambienti virtuali.

2025-07-29T20:18:05+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Utilizzare la tecnologia audio per il tracciamento dei pedoni

Questo studio esamina i metodi audio per tracciare i movimenti dei pedoni nelle aree urbane.

2025-07-29T17:52:20+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Avanzando l'audio Foley con il dataset MINT

Un nuovo dataset migliora la creazione di audio foley per contenuti multimediali.

2025-07-29T17:03:45+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nel Riconoscimento Vocale Automatico con TTA Dinamico

Nuovi metodi migliorano il riconoscimento vocale in ambienti rumorosi usando tecniche adattive.

2025-07-29T13:49:25+00:00 ― 7 leggere min

Suono SPEAR: Un Nuovo Approccio all'Analisi del Suono

SPEAR prevede il comportamento sonoro in spazi 3D usando una raccolta di dati minimale.

2025-07-29T10:35:05+00:00 ― 6 leggere min

Calcolo e linguaggio Avanzamenti nella traduzione del parlato con code-switching

Un nuovo metodo migliora la traduzione del parlato in lingue miste in inglese.

2025-07-29T09:46:30+00:00 ― 5 leggere min

Suono Migliorare la verifica del parlante nelle comunicazioni radio

Un nuovo metodo migliora l'accuratezza della verifica dell'oratore in ambienti radio difficili.

2025-07-29T08:57:55+00:00 ― 7 leggere min

Suono Migliorare gli attacchi backdoor nel riconoscimento vocale

Nuovo metodo punta sui cambiamenti di ritmo per attacchi vocali furtivi.

2025-07-29T08:09:20+00:00 ― 6 leggere min

Suono GAMA: Un Nuovo Modello per la Comprensione del Suono

GAMA migliora l'elaborazione audio unendo intuizioni su suono e linguaggio.

2025-07-29T04:55:00+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato AV-CrossNet: Migliorare il riconoscimento vocale nel rumore

Un nuovo sistema aiuta a separare il parlato dal rumore per una comunicazione più chiara.

2025-07-29T03:17:50+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato GigaSpeech 2: Un Nuovo Dataset per il Riconoscimento Vocale

GigaSpeech 2 offre un'enorme raccolta di dati per le lingue a bassa risorsa per migliorare il riconoscimento vocale.

2025-07-29T02:29:15+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Rivoluzionare il Text-to-Speech con DiTTo-TTS

Un nuovo modello migliora la tecnologia da testo a voce con efficienza e adattabilità.

2025-07-29T01:40:40+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Nuovo Framework per una Produzione del Parlato Chiara

Un nuovo metodo per ottimizzare l'analisi e la sintesi del parlato usando i movimenti del tratto vocale.

2025-07-28T20:49:10+00:00 ― 7 leggere min

Interazione uomo-macchina L'impatto dei gesti nelle spiegazioni virtuali

Questo studio esamina come i gesti influenzano l'apprendimento dagli agenti virtuali.

2025-07-28T19:12:00+00:00 ― 7 leggere min