Ingegneria elettrica e scienze dei sistemi - Elaborazione dell'audio e del parlato

RSS

Interazione uomo-macchina Sviluppi nei Sistemi di Riconoscimento delle Emozioni Indossabili

Un nuovo framework migliora il rilevamento delle emozioni usando l'apprendimento auto-supervisionato.

2025-11-28T14:35:20+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Nuovo metodo per generare suoni realistici dai video

Questo approccio collega le azioni video e il suono usando la fisica per effetti sonori migliori.

2025-11-28T12:58:10+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli Migliorare il riconoscimento del parlato audiovisivo con indizi visivi

Un nuovo metodo migliora il riconoscimento vocale usando dati visivi con modelli esistenti.

2025-11-28T10:32:25+00:00 ― 7 leggere min

Intelligenza artificiale Un nuovo framework per le annotazioni musicali

Questo articolo parla di un approccio sistematico per l'annotazione della musica.

2025-11-28T06:29:30+00:00 ― 6 leggere min

Intelligenza artificiale Capire l'ontologia delle note musicali

Un approccio strutturato alla rappresentazione della musica e all'analisi delle performance.

2025-11-28T05:40:55+00:00 ― 5 leggere min

Calcolo e linguaggio Avanzare Modelli di Parlato Visivamente Fondati Bilingui

Questo studio migliora i modelli di parlato bilingue usando un forte supporto linguistico.

2025-11-28T04:03:45+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli Creare Immagini dai Suoni: Il Modello Sound2Scene

Un nuovo modello trasforma i suoni in immagini chiare, collegando informazioni audio e visive.

2025-11-28T03:15:10+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Nuovo metodo per la captioning audio con dati limitati

Un approccio nuovo per generare didascalie audio usando modelli di linguaggio pre-addestrati.

2025-11-28T02:26:35+00:00 ― 6 leggere min

Calcolo e linguaggio Innovazioni modulari nei sistemi di riconoscimento vocale

Un nuovo approccio migliora l’adattabilità della tecnologia di riconoscimento vocale.

2025-11-27T16:43:35+00:00 ― 4 leggere min

Calcolo e linguaggio Nuovi approcci nella tecnologia di riconoscimento vocale

Uno sguardo ai progressi nei modelli di riconoscimento vocale per efficienza e precisione.

2025-11-27T15:55:00+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Migliorare l'inclusività nelle riunioni remote con l'AI

Un nuovo sistema punta a migliorare la partecipazione nelle riunioni remote usando il machine learning.

2025-11-27T01:20:30+00:00 ― 6 leggere min

Calcolo e linguaggio Nuovo Metodo per Valutare i Sistemi di Riconoscimento Vocale

Un nuovo modo per misurare le prestazioni del riconoscimento vocale senza trascrizione manuale.

2025-11-26T22:06:10+00:00 ― 5 leggere min

Calcolo e linguaggio Anonimizzazione della voce nei test COVID-19: trovare un equilibrio tra privacy e precisione

Esaminando come l'anonimizzazione della voce influisce sui sistemi diagnostici COVID-19 e sulla privacy degli utenti.

2025-11-26T01:03:00+00:00 ― 7 leggere min

Interazione uomo-macchina Rivoluzionare il Battere: Il Sistema di Batteria Aerea

Vivi l'esperienza della batteria con solo due bacchette e uno smartphone, senza bisogno di attrezzature pesanti.

2025-11-25T21:48:40+00:00 ― 5 leggere min

Interazione uomo-macchina Come l'IA sta modellando il mixing musicale

Gli strumenti di intelligenza artificiale semplificano il mixing, offrendo nuove opzioni per dilettanti e professionisti.

2025-11-24T20:42:35+00:00 ― 7 leggere min

Suono Bollicine nell'acqua: una nuova frontiera sonora

Le bolle potrebbero contenere la chiave per generare musica innovativa.

2025-11-24T18:42:00+00:00 ― 7 leggere min

Suono Sviluppi nel captioning audio automatico

Uno sguardo ai nuovi metodi che migliorano la didascalia audio per una migliore accessibilità.

2025-11-24T10:11:00+00:00 ― 4 leggere min

Computer e società Biometria vocale: dataset, pregiudizi e sfide sulla privacy

Analizzando l'uso dei dataset nella biometria vocale si rivelano preoccupazioni significative riguardo al bias e alla privacy.

2025-11-24T06:56:40+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Migliorare la Verifica dell'Identità con Margin-Mixup

Un nuovo metodo migliora i sistemi di verifica vocale per voci sovrapposte.

2025-11-24T01:16:35+00:00 ― 5 leggere min

Apprendimento automatico Nuove tecniche per la lavorazione del parlato

Metodi innovativi per una rappresentazione efficace dei segmenti di parlato nei compiti di elaborazione.

2025-11-23T14:45:00+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Migliorare la Sintesi Vocale con la Predizione delle Pausa

Migliorare i sistemi TTS per raccontare storie meglio grazie a pause efficaci.

2025-11-23T09:53:30+00:00 ― 4 leggere min

Suono AffectMachine-Classical: un nuovo modo per creare musica emozionante

AffectMachine-Classical genera musica classica in tempo reale per aiutarti a gestire le emozioni.

2025-11-23T06:39:10+00:00 ― 7 leggere min

Suono Impatto dei sistemi TTS sulla traduzione da parlato a parlato

Questo studio esamina come diversi sistemi TTS migliorano le prestazioni del modello S2ST.

2025-11-23T02:36:15+00:00 ― 6 leggere min

Calcolo e linguaggio Modellare i backchannel: Un passo verso conversazioni naturali

La ricerca mostra come i canali secondari migliorano la comunicazione tra macchine.

2025-11-23T01:47:40+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Sviluppi nella manipolazione audio usando le reti neurali

La ricerca svela nuovi modi per manipolare il suono usando reti neurali per la produzione musicale.

2025-11-23T00:10:30+00:00 ― 5 leggere min

Suono Migliorare l'apprendimento audiovisivo con film doppiati

La ricerca usa film doppiati per migliorare la connessione tra vista e suono nel machine learning.

2025-11-22T07:58:50+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Un modo nuovo per analizzare i suoni del parlato nel tempo

Presentiamo l'absement, un metodo per misurare i suoni del parlato in modo dinamico nel tempo.

2025-11-22T03:07:20+00:00 ― 6 leggere min

Suono Sviluppi nei metodi di trascrizione del canto

Un nuovo modo per trascrivere con precisione le note e i testi delle canzoni usando la tecnologia.

2025-11-22T01:30:10+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Il nuovo modello migliora il riconoscimento delle emozioni nelle conversazioni

Il modello di Cross Attention Gerarchico migliora la comprensione emotiva in diverse forme di comunicazione.

2025-11-21T19:01:30+00:00 ― 5 leggere min

Suono Progressi nei Sistemi di Recupero Musicale

Nuovi metodi migliorano il tagging e il recupero della musica usando meno input umano.

2025-11-21T06:52:45+00:00 ― 6 leggere min

Suono Analizzando le lunghezze dei segnali nei modelli di separazione del parlato

Questo studio esamina come la lunghezza del segnale influisce sulle prestazioni di separazione del parlato.

2025-11-21T04:27:00+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Proteggere la privacy del linguaggio nella comunicazione emotiva

La ricerca si concentra sull'anonimizzazione del parlato mantenendo il contenuto emotivo.

2025-11-21T02:01:15+00:00 ― 5 leggere min

Robotica Usare il rumore dei droni per misurare la distanza

Nuovo metodo stima le distanze usando il rumore dei motori dei droni.

2025-11-21T00:24:05+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli Avanzare nel Riconoscimento delle Emozioni con Dati Audio-Visivi

Questa ricerca mette in evidenza un nuovo modello per migliorare il riconoscimento delle emozioni usando dati audio e visivi.

2025-11-20T21:09:45+00:00 ― 5 leggere min

Calcolo e linguaggio Macchine e Suoni: L'IA riesce a capire le descrizioni uditive?

Questo studio esamina come l'IA valuta e descrive i suoni rispetto agli esseri umani.

2025-11-20T19:32:35+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Input fonetico vs. input grafemico nei sistemi TTS

Lo studio confronta gli input fonetici e grafemici nei sistemi TTS per il francese.

2025-11-20T16:18:15+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Sviluppi nella tecnologia di codifica audio

Nuovi metodi migliorano la qualità audio riducendo l'uso dei dati.

2025-11-20T14:41:05+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Progressi nella tecnologia di miglioramento del suono

FSB-LSTM migliora la chiarezza del parlato in ambienti rumorosi con bassa latenza e bassa complessità.

2025-11-20T12:15:20+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Ottimizzare il riconoscimento delle parole chiave per una migliore efficienza energetica

La ricerca svela modi per migliorare i sistemi di rilevamento delle parole chiave riducendo il consumo energetico.

2025-11-20T11:26:45+00:00 ― 5 leggere min

Calcolo e linguaggio Presentiamo Prak: uno strumento per l'allineamento fonetico

Prak semplifica l'allineamento fonetico per la ricerca sulla lingua ceca.

2025-11-20T10:38:10+00:00 ― 5 leggere min