Ingegneria elettrica e scienze dei sistemi - Elaborazione dell'audio e del parlato

RSS

Elaborazione dell'audio e del parlato Il ruolo del riconoscimento vocale nell'integrità delle sperimentazioni cliniche

Indagando su come la tecnologia vocale può prevenire la partecipazione duplicata dei pazienti negli studi clinici.

2025-10-20T07:15:45+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Analizzare il linguaggio per rilevare problemi di salute mentale

Un nuovo dataset aiuta a identificare segni di depressione e ansia attraverso l'analisi del parlato.

2025-10-20T06:27:10+00:00 ― 7 leggere min

Suono Ricostruire il suono dall'attività cerebrale

Nuovo metodo ricostruisce il suono dai segnali cerebrali, rivelando intuizioni sul processamento uditivo.

2025-10-20T01:35:40+00:00 ― 5 leggere min

Suono Portare l'IA nella creazione musicale su Bela

Una guida per usare modelli AI per la musica sulla piattaforma Bela.

2025-10-19T22:21:20+00:00 ― 5 leggere min

Calcolo e linguaggio Nuove metriche per valutare la qualità del riconoscimento vocale

Un nuovo metodo valuta i sistemi ASR senza bisogno di testi di riferimento.

2025-10-19T19:07:00+00:00 ― 5 leggere min

Calcolo e linguaggio Valutare la qualità dell'ASR senza testi di riferimento

NoRefER offre un modo nuovo per valutare i risultati del riconoscimento vocale senza bisogno di trascrizioni.

2025-10-19T16:41:15+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Migliorare i sottotitoli dei video con integrazione audio

Quest'articolo parla di un metodo per migliorare i sottotitoli dei video incorporando l'audio.

2025-10-19T15:52:40+00:00 ― 6 leggere min

Suono Sviluppi nella tecnologia di conversione vocale

Un nuovo modello migliora la conversione vocale semplificando le tecniche di separazione del parlato.

2025-10-19T12:38:20+00:00 ― 7 leggere min

Suono Progressi nella Misurazione della Somiglianza Musicale

La ricerca punta a combinare dati audio e simbolici per analizzare la somiglianza musicale.

2025-10-19T11:49:45+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Progressi nelle tecniche di diarizzazione del linguaggio parlato

Nuovi metodi migliorano la segmentazione del parlato nelle conversazioni multilingue.

2025-10-19T02:06:45+00:00 ― 6 leggere min

Suono Nuovo metodo migliora l'isolamento acustico in ambienti rumorosi

NoisyILRMA migliora l'estrazione del suono dal rumore di fondo per un'esperienza audio più chiara.

2025-10-19T00:29:35+00:00 ― 4 leggere min

Suono Avanzamenti nella comprensione della voce cantata usando modelli SSL

Questo articolo parla del ruolo dell'apprendimento auto-supervisionato nella tecnologia musicale.

2025-10-18T22:03:50+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Progressi nel Riconoscimento Automatico del Parlato per Uso Multilingue

Un nuovo framework migliora l'ASR per le lingue a risorse limitate e la scalabilità multilingue.

2025-10-18T19:38:05+00:00 ― 6 leggere min

Suono Avanzare il riconoscimento vocale per utenti sordi

I sistemi ASR personalizzati migliorano notevolmente la comunicazione per le persone DHH.

2025-10-18T03:26:25+00:00 ― 6 leggere min

Suono Sviluppi nelle tecniche di diarizzazione degli speaker

Nuovi metodi sfruttano i riassunti conversazionali per un riconoscimento degli speaker migliore.

2025-10-18T00:12:05+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare la Valutazione Automatica del Parlato per gli Studenti di Lingua

Migliorare i sistemi di feedback per gli studenti di inglese affrontando il problema del cold start.

2025-10-17T16:54:50+00:00 ― 6 leggere min

Suono Migliorare la localizzazione del rumore per le turbine eoliche

Ricercando metodi per localizzare le fonti sonore delle turbine eoliche per ridurre il rumore.

2025-10-17T16:06:15+00:00 ― 5 leggere min

Suono Progressi nella rilevazione delle tecniche vocali con PrimaDNN

Introduzione di un nuovo modello per identificare le tecniche vocali nei brani audio.

2025-10-17T14:29:05+00:00 ― 6 leggere min

Multimedia Migliorare l'estrazione del parlante target con indizi visivi

Un nuovo modello migliora l'estrazione del parlato usando informazioni audio e visive.

2025-10-17T12:51:55+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Introducendo Wespeaker: Un Kit per il Riconoscimento dei Parlanti

Wespeaker semplifica il riconoscimento degli speaker con strumenti facili da usare e modelli già pronti.

2025-10-17T10:26:10+00:00 ― 6 leggere min

Suono Convertire l'audio mono in stereo immersivo

Un nuovo metodo trasforma i segnali mono in esperienze stereo coinvolgenti.

2025-10-17T01:31:45+00:00 ― 6 leggere min

Calcolo e linguaggio Avanzando il riconoscimento delle emozioni tra età e lingue

Uno studio per migliorare il riconoscimento delle emozioni nel parlare per gruppi diversi.

2025-10-16T23:06:00+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Migliorare il riconoscimento vocale tramite ensemble basati sulla fiducia

Questo articolo parla di come migliorare il riconoscimento vocale usando metodi di ensemble basati sulla fiducia.

2025-10-16T18:14:30+00:00 ― 5 leggere min

Multimedia Rivoluzionare il monitoraggio del sonno dei neonati con LittleBeats

Lo studio usa un dispositivo multi-dati per monitorare i modelli di sonno dei neonati in modo più preciso.

2025-10-16T17:25:55+00:00 ― 5 leggere min

Calcolo e linguaggio Presentiamo 3D-Speaker: una nuova risorsa per la ricerca sul parlato

3D-Speaker offre una vasta collezione di registrazioni audio per un'analisi del parlato avanzata.

2025-10-16T16:37:20+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzando il Text-to-Speech: Modello GenerTTS Spiegato

GenerTTS migliora la tecnologia di sintesi vocale per applicazioni multilingue.

2025-10-16T15:48:45+00:00 ― 5 leggere min

Suono Affrontare la sfida degli audio deepfake

Un nuovo sistema migliora il rilevamento di audio manipolato attraverso tecniche innovative.

2025-10-16T15:00:10+00:00 ― 5 leggere min

Suono Progressi nel riconoscimento vocale multi-parlante

Migliorare il riconoscimento vocale per voci sovrapposte rende tutto più facile in tanti contesti.

2025-10-16T11:45:50+00:00 ― 5 leggere min

Suono Migliorare le tecniche di estrazione dei relatori

Nuovi metodi migliorano la separazione della voce in ambienti audio misti.

2025-10-16T10:57:15+00:00 ― 5 leggere min

Suono Sviluppi nella tecnologia di estrazione del parlante target

Scopri come le nuove tecniche migliorano la chiarezza del parlato in ambienti rumorosi.

2025-10-16T10:08:40+00:00 ― 5 leggere min

Suono UnitSpeech: Personalizzare il Text-to-Speech con pochi dati

Un nuovo metodo per rendere la sintesi vocale più personale usando meno dati vocali.

2025-10-16T06:54:20+00:00 ― 5 leggere min

Suono Sviluppi nel trattamento audio con reti neurali grafiche

Nuovi metodi migliorano la localizzazione del suono utilizzando array di microfoni distribuiti.

2025-10-16T06:05:45+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Equilibrare Privacy e Utilità nell'Analisi del Parlato

Questo studio esamina metodi per proteggere la privacy mentre si analizzano conversazioni parlate.

2025-10-16T05:17:10+00:00 ― 6 leggere min

Suono Nuove vulnerabilità nei sistemi di riconoscimento vocale

Attacchi recenti tramite backdoor mettono in luce i rischi nelle tecnologie di identificazione vocale.

2025-10-16T02:51:25+00:00 ― 7 leggere min

Suono Tecnologia Avanzata di Isolamento Vocale

Un nuovo modello migliora l'estrazione del parlato da sfondi rumorosi usando il deep learning.

2025-10-16T02:02:50+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Presentiamo GOLF: Una Nuova Era nella Sintesi della Voce Cantata

GOLF offre un modo nuovo per creare canti simili a quelli umani usando meno risorse.

2025-10-15T16:19:50+00:00 ― 6 leggere min

Suono Progressi nella previsione dell'età e del genere basati sulla voce

Ricerca su come prevedere età e genere dai dati vocali utilizzando modelli innovativi.

2025-10-15T13:54:05+00:00 ― 5 leggere min

Suono Analizzando la musica con gli alberi delle dipendenze

Un metodo nuovo per capire le relazioni musicali tramite alberi di dipendenza.

2025-10-15T13:05:30+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare il riconoscimento vocale con modelli a lungo contesto

Questo articolo parla di nuovi modelli che migliorano l'accuratezza del riconoscimento vocale tenendo conto di un contesto più lungo.

2025-10-15T12:16:55+00:00 ― 6 leggere min

Calcolo e linguaggio Presentiamo LyricWhiz: Trasformare la Trascrizione dei Testi

LyricWhiz combina modelli avanzati per migliorare l'accuratezza della trascrizione dei testi in diverse lingue.

2025-10-15T09:51:10+00:00 ― 6 leggere min