Ingegneria elettrica e scienze dei sistemi - Elaborazione dell'audio e del parlato

RSS

Calcolo e linguaggio Migliorare il riconoscimento automatico della voce con la divergenza dei corpora vocali

Un nuovo metodo migliora il riconoscimento vocale selezionando meglio i dati di addestramento.

2025-12-14T15:12:25+00:00 ― 6 leggere min

Articoli più recenti

Elaborazione dell'audio e del parlato Avanzando la tecnologia di verifica dell'identità vocale in India

2025-12-14T14:23:50+00:00 ― 6 leggere min

Suono Unire Voci e Volti per un Riconoscimento Migliore

2025-12-14T12:46:40+00:00 ― 5 leggere min

Suono Progressi nella separazione vocale con beamforming neurale 3D

2025-12-14T10:20:55+00:00 ― 4 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nella tecnologia Text-to-Speech con VarianceFlow

2025-12-14T09:32:20+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato DFSNet: Un Nuovo Approccio alla Chiarezza del Parlare

2025-12-14T07:55:10+00:00 ― 5 leggere min

Articoli più recenti

Suono Predire le Emozioni nella Musica: Un Approccio Multi-Modale

Combinare le caratteristiche audio e il testo può migliorare la previsione delle emozioni nella musica.

2025-12-14T05:29:25+00:00 ― 6 leggere min

Suono Migliorare il riconoscimento vocale con tecniche di aumento dei dati

Scopri come l'augmentazione dei dati migliora le prestazioni del riconoscimento vocale.

2025-12-14T04:40:50+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nel Riconoscimento Vocale Utilizzando Segnali Sonori e Visivi

Combinare segnali audio e visivi aiuta a riconoscere meglio il parlato in ambienti difficili.

2025-12-14T03:03:40+00:00 ― 4 leggere min

Suono Avanzamenti nella classificazione audio Few-Shot con HalluAudio

HalluAudio migliora il riconoscimento del suono con esempi minimi usando un'analisi audio unica.

2025-12-13T23:00:45+00:00 ― 6 leggere min

Suono Capire le spiegazioni del Riconoscimento Automatico del Parole (ASR)

Uno sguardo a come i sistemi ASR forniscono spiegazioni per le loro trascrizioni.

2025-12-13T19:46:25+00:00 ― 7 leggere min

Apprendimento automatico Avanzamenti nella tecnologia di sintesi vocale con testo in stile facciale

Nuovo modello TTS genera voci basate su caratteristiche facciali per diverse applicazioni.

2025-12-13T18:09:15+00:00 ― 5 leggere min

Suono Progressi nella tecnologia di conversione della voce cantata

Rivoluzionando la produzione audio trasformando le voci dei cantanti ma mantenendo le canzoni originali.

2025-12-13T17:20:40+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Migliorare il Text-to-Speech con l'inserimento di pause

I nuovi modelli migliorano la naturalezza della voce nei sistemi di sintesi vocale.

2025-12-13T16:32:05+00:00 ― 6 leggere min

Suono Migliorare il Controllo Audio nella Creazione Musicale con l'AI

Un nuovo modello permette ai musicisti di controllare la sintesi del suono in modo più efficace.

2025-12-13T14:54:55+00:00 ― 5 leggere min

Suono Avanzare nel riconoscimento delle parole chiave con dati visivi

Combinare dati audio e visivi per migliorare il riconoscimento delle parole chiave negli assistenti vocali.

2025-12-13T14:06:20+00:00 ― 5 leggere min

Suono Rilevare la depressione tramite l'analisi del parlato

Nuovi metodi rivelano come il linguaggio possa indicare la gravità della depressione.

2025-12-13T11:45:48+00:00 ― 6 leggere min

Suono Adattare le macchine per imparare senza dimenticare

Un nuovo metodo migliora l'apprendimento automatico per i compiti audio mantenendo le conoscenze pregresse.

2025-12-13T11:40:35+00:00 ― 5 leggere min

Calcolo e linguaggio Sviluppi nel riconoscimento vocale multilingue

Un nuovo framework migliora l'ASR multilingue unendo caratteristiche specifiche delle lingue con l'efficienza.

2025-12-13T10:03:25+00:00 ― 5 leggere min

Suono Sviluppi nella tecnologia di verifica dell'identità vocale

Nuovi metodi migliorano l'accuratezza dei controlli identità basati sulla voce.

2025-12-13T09:14:50+00:00 ― 7 leggere min

Apprendimento automatico Migliorare l'accuratezza della pronuncia nei sistemi TTS

Questo framework affronta le sfide nella pronuncia text-to-speech per una migliore interazione con l'utente.

2025-12-13T08:26:15+00:00 ― 6 leggere min

Calcolo e linguaggio Sviluppi nella tecnologia di sintesi vocale araba

Il database ClArTTS migliora la sintesi vocale araba con registrazioni di qualità.

2025-12-13T06:00:30+00:00 ― 6 leggere min

Multimedia Affrontare il recupero audio per documenti di design

Un nuovo metodo migliora il matching audio per i documenti di design usando un dataset unico.

2025-12-13T04:23:20+00:00 ― 5 leggere min

Calcolo e linguaggio NIST 2022 Riconoscimento della Lingua: Punti Salienti

La valutazione NIST del 2022 si è concentrata sui progressi nel riconoscimento linguistico, in particolare per le lingue africane.

2025-12-13T02:46:10+00:00 ― 5 leggere min

Suono Migliorare il riconoscimento vocale in ambienti rumorosi

Il nuovo modello deHuBERT migliora l'accuratezza del riconoscimento vocale in condizioni di rumore difficili.

2025-12-13T01:57:35+00:00 ― 4 leggere min

Calcolo e linguaggio ParrotTTS: Un Nuovo Metodo per i Sistemi di Sintesi Voce

ParrotTTS rivoluziona la generazione del parlato con meno dati trascritti.

2025-12-12T18:40:20+00:00 ― 6 leggere min

Suono Migliorare l'accuratezza della trascrizione per file audio lunghi

Un nuovo sistema migliora la trascrizione di lunghe registrazioni audio con un'accuratezza migliore.

2025-12-12T15:26:00+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Avatar parlanti realistici alimentati da audio

Presentiamo gli Avatar READ per un'espressione emotiva realistico nei personaggi digitali.

2025-12-12T14:37:25+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzando la classificazione vocale con SpeechPrompt v2

SpeechPrompt v2 migliora la classificazione del parlato con tecniche efficienti e una precisione migliore.

2025-12-12T13:48:50+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Gestire dataset audio con audb

audb semplifica la gestione e la condivisione dei dataset audio in modo efficiente.

2025-12-12T13:00:15+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Migliorare il riconoscimento vocale con la distillazione della conoscenza

Questo studio migliora il riconoscimento vocale attraverso la distillazione della conoscenza in ensemble e il campionamento elitario.

2025-12-12T12:11:40+00:00 ― 6 leggere min

Suono Avanzamenti nella Verifica dell'Identità con Regolarizzazione del Trasferimento del Peso

Nuovo metodo migliora l'accuratezza della verifica del parlante da registrazioni a lunga distanza.

2025-12-12T07:20:10+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato L'ascesa del riconoscimento vocale end-to-end

I modelli end-to-end semplificano il riconoscimento vocale, migliorando l'accuratezza e l'efficienza.

2025-12-12T00:51:30+00:00 ― 6 leggere min

Calcolo e linguaggio Progressi nell'apprendimento trasferito efficiente nei parametri per l'elaborazione del parlato

Nuove tecniche migliorano l'efficienza del processamento vocale con meno risorse e prestazioni migliori.

2025-12-12T00:02:55+00:00 ― 5 leggere min

Suono LooperGP: Un nuovo strumento per le performance musicali dal vivo

LooperGP aiuta i musicisti a creare loop personalizzabili per le loro esibizioni dal vivo.

2025-12-11T23:14:20+00:00 ― 5 leggere min

Suono Avanzare l'espressione emotiva nella tecnologia Text-To-Speech

Nuovi metodi migliorano la profondità emotiva nel TTS, rendendo le interazioni con gli utenti migliori.

2025-12-11T21:37:10+00:00 ― 5 leggere min

Suono Sviluppi nei Metodi di Rilevamento del Linguaggio Finto

L'auto-distillazione potenzia i sistemi di rilevamento contro le tecnologie di discorso falso.

2025-12-11T16:45:40+00:00 ― 6 leggere min

Suono Migliorare il riconoscimento vocale con anti-spoofing consapevole del parlante

Nuove tecniche migliorano il rilevamento di voci false nei sistemi di riconoscimento vocale.

2025-12-11T14:19:55+00:00 ― 5 leggere min

Suono Avanzare nella verifica dell'identità con modelli più piccoli

Tecniche innovative riducono le dimensioni del modello mantenendo le prestazioni nella verifica del parlante.

2025-12-11T13:31:20+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Progressi nella tecnologia di riconoscimento delle emozioni nel parlato

Nuove intuizioni su come identificare le emozioni nel parlato usando dati sonori e di parole.

2025-12-11T02:59:45+00:00 ― 6 leggere min

Suono Riconoscere le emozioni nelle performance al pianoforte

Uno studio su come catturare le emozioni nella musica attraverso le performance dei pianisti.

2025-12-10T19:42:30+00:00 ― 4 leggere min

Elaborazione dell'audio e del parlato Sviluppi nella Tecnologia Text-to-Speech

I miglioramenti nella tecnologia TTS migliorano la personalizzazione e la qualità del parlato.

2025-12-10T18:53:55+00:00 ― 6 leggere min

Suono Sviluppi nel riconoscimento delle parole chiave e nel tagging audio

Nuovi modelli migliorano l'efficienza degli assistenti vocali mobili.

2025-12-10T18:05:20+00:00 ― 6 leggere min

Suono Evoluzioni nel Design Sonoro con il Framework ProVE

ProVE migliora la generazione audio procedurale, aumentando la qualità del suono e il controllo dell'utente.

2025-12-10T15:39:35+00:00 ― 6 leggere min

Suono Progressi nel riconoscimento vocale con TFN

Un nuovo metodo migliora il riconoscimento dell'oratore combinando caratteristiche temporali e di frequenza.

2025-12-10T09:10:55+00:00 ― 5 leggere min

Elaborazione del segnale Avanzamenti nelle tecniche di stima dello spettro delle linee

Un nuovo algoritmo migliora l'analisi dei segnali complessi in vari settori.

2025-12-10T05:08:00+00:00 ― 7 leggere min