Articoli più recenti per Tecnologia del parlato

Suono Migliorare il riconoscimento della balbuzie con MMSD-Net

Un nuovo metodo migliora il rilevamento della balbuzie combinando dati audio, video e testo.

2025-07-15T07:18:40+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Migliorare il riconoscimento vocale per la lingua polacca

La ricerca presenta nuovi metodi per valutare i sistemi di riconoscimento vocale in polacco.

2025-07-14T16:44:10+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato MSceneSpeech: Avanzando nella Sintesi Vocale Mandarino

Un nuovo set di dati migliora il parlato delle macchine per il mandarino, puntando a un'espressione naturale.

2025-07-14T09:26:55+00:00 ― 6 leggere min

Suono L'ascesa del montaggio vocale nei media digitali

Esplora l'importanza crescente dell'editing vocale per i creatori di contenuti.

2025-07-11T00:28:35+00:00 ― 6 leggere min

Calcolo e linguaggio Progressi nel riconoscimento vocale per lingue a bassa risorsa

Nuovi metodi migliorano i sistemi di riconoscimento vocale per lingue poco rappresentate.

2025-07-10T04:14:00+00:00 ― 6 leggere min

Suono Sviluppi nelle tecnologie di rilevamento vocale

La ricerca combina il miglioramento della voce e l'apprendimento trasferito per sistemi anti-spoofing migliori.

2025-07-08T23:53:35+00:00 ― 8 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nella generazione di discorsi emotivi

Nuovi metodi migliorano l'espressione emotiva nella sintesi vocale delle macchine.

2025-07-05T22:12:30+00:00 ― 6 leggere min

Calcolo e linguaggio Presentiamo Speech-MASSIVE: un nuovo dataset per la comprensione del linguaggio parlato multilingue

Speech-MASSIVE punta a migliorare la comprensione del linguaggio parlato in diverse lingue.

2025-07-04T01:40:25+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Garantire la privacy dei dati vocali con nuovi metodi

Tecniche innovative proteggono i dati vocali sensibili mantenendo l'accuratezza del processamento.

2025-07-04T00:51:50+00:00 ― 7 leggere min

Interazione uomo-macchina OpenOmni: Potenziare gli Agenti di Conversazione Multimodali

OpenOmni crea strumenti flessibili per creare e testare agenti conversazionali.

2025-07-01T09:40:42+00:00 ― 8 leggere min

Elaborazione dell'audio e del parlato Progressi nella tecnologia di sintesi vocale con SSL-TTS

SSL-TTS semplifica la sintesi vocale usando pochi dati di addestramento per risultati di alta qualità.

2025-06-27T15:49:35+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Sviluppi nella tecnologia di riconoscimento della voce sussurrata

Nuovi metodi migliorano il riconoscimento vocale per la comunicazione sussurrata.

2025-06-25T05:31:35+00:00 ― 6 leggere min

Suono StyleSpeech: Il Futuro della Tecnologia Text-to-Speech

StyleSpeech migliora i sistemi TTS catturando le sfumature del linguaggio naturale.

2025-06-24T14:08:30+00:00 ― 6 leggere min

Suono EmoAttack: Una nuova minaccia nella tecnologia vocale

EmoAttack sfrutta la conversione vocale emotiva per sfruttare le vulnerabilità nei sistemi di riconoscimento vocale.

2025-06-24T01:59:45+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzando la Conversione del Parlato Sussurrato con MaskCycleGAN

Un nuovo metodo migliora la conversione del parlato sussurrato in parlato normale usando tecniche avanzate.

2025-06-23T09:48:05+00:00 ― 5 leggere min

Suono VoxInstruct: Un Nuovo Modo di Generare Voce

VoxInstruct combina contenuto e stile per generare un discorso più naturale.

2025-06-22T23:16:30+00:00 ― 5 leggere min

Suono Avanzamenti nella verifica dell'identità vocale usando Whisper

Un nuovo metodo migliora l'accuratezza del riconoscimento vocale in diverse lingue.

2025-06-22T18:25:00+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Progressi nel miglioramento del parlato con il windowing temporale-contextuale

Esplorando un nuovo approccio per migliorare la qualità del parlato usando finestre temporali contestuali.

2025-06-22T17:36:25+00:00 ― 6 leggere min

Suono Sviluppi nella tecnologia Text-to-Speech

Nuovi metodi migliorano la qualità della sintesi vocale nei sistemi TTS.

2025-06-22T05:27:40+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Presentiamo SelectTTS: un metodo semplificato per la sintesi vocale

SelectTTS semplifica la generazione del parlato per relatori mai visti con una selezione di frame efficace.

2025-06-21T18:07:30+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Sviluppi nel Self-Supervised Learning per l'elaborazione del parlato

Un nuovo metodo migliora le prestazioni del modello di linguaggio in vari compiti.

2025-06-21T02:44:25+00:00 ― 6 leggere min

Suono Avanzare nel riconoscimento delle parole chiave con dati non etichettati

Un nuovo metodo migliora l'accuratezza del riconoscimento delle parole chiave usando dati audio non etichettati.

2025-06-21T01:55:50+00:00 ― 7 leggere min

Neuroni e cognizione Rilevamento automatico del lieve deterioramento cognitivo tramite analisi del parlato

La ricerca mostra che l'analisi del linguaggio può aiutare nella rilevazione precoce del lieve deterioramento cognitivo.

2025-06-21T01:11:33+00:00 ― 5 leggere min

Suono Nuovo dataset migliora la tecnologia di riconoscimento vocale

I ricercatori hanno creato LibriheavyMix per migliorare il riconoscimento vocale in ambienti rumorosi.

2025-06-20T22:41:30+00:00 ― 5 leggere min

Calcolo e linguaggio Progressi nella Tokenizzazione del Parlato: Un Quadro per la Valutazione

Un nuovo benchmark aiuta a valutare i tokenizer vocali per migliorare le prestazioni.

2025-06-20T00:01:10+00:00 ― 6 leggere min

Calcolo e linguaggio Usare i dati vocali per la diagnosi dell'autismo

Un nuovo metodo sfrutta i dati vocali per migliorare le valutazioni sull'autismo.

2025-06-19T19:12:12+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Progressi nella sintesi vocale usando DDSP

Scopri come DDSP migliora l'efficienza e la qualità della sintesi vocale.

2025-06-18T17:15:00+00:00 ― 6 leggere min

Calcolo e linguaggio Sfide nel Riconoscimento del Parlante per i Modelli di Linguaggio Parlato

I modelli di linguaggio per il parlato sembrano promettenti, ma faticano a identificare i relatori nelle conversazioni.

2025-06-17T08:03:05+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Addestramento Efficiente di Modelli Vocali con Risorse Limitate

Questo articolo parla di metodi di allenamento efficienti per modelli di voce usando l'apprendimento autosupervisionato.

2025-06-16T15:02:50+00:00 ― 4 leggere min

Calcolo e linguaggio Migliorare i sistemi di riconoscimento vocale per le lingue indiane

Un nuovo dataset migliora la tecnologia del riconoscimento vocale multilingue in India.

2025-06-15T18:48:15+00:00 ― 6 leggere min

Suono Progressi nella tecnologia di sintesi vocale emozionale

ParaEVITS migliora l'espressione emotiva nel TTS attraverso la guida del linguaggio naturale.

2025-06-15T05:50:55+00:00 ― 5 leggere min

Calcolo e linguaggio Avanzare nel riconoscimento vocale per la lingua faetar

Sforzi per migliorare la tecnologia vocale per la lingua Faetar, che è poco supportata.

2025-06-13T09:18:50+00:00 ― 6 leggere min

Calcolo e linguaggio WhisperNER: Fondere Riconoscimento Vocale e Rilevamento di Entità

Un nuovo modello combina il riconoscimento vocale e il riconoscimento delle entità per risultati migliori.

2025-06-13T03:29:30+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzare nel Riconoscimento Vocale per Persone con Disturbi

Un progetto mira a migliorare la tecnologia vocale per chi ha difficoltà di comunicazione.

2025-06-12T12:15:40+00:00 ― 6 leggere min

Suono Migliorare gli accenti nella tecnologia di sintesi vocale

Un nuovo sistema migliora l'accuratezza degli accenti nel TTS per una comunicazione migliore.

2025-06-12T08:12:45+00:00 ― 6 leggere min

Suono ESPnet-EZ: Semplificare lo Sviluppo di Modelli Vocali

Uno strumento facile da usare per perfezionare i modelli di voce senza codice complesso.

2025-06-11T15:12:30+00:00 ― 7 leggere min

Fisica quantistica Avanzare il riconoscimento vocale con il computing quantistico

Un nuovo metodo che migliora il riconoscimento vocale garantendo la privacy dei dati.

2025-06-11T07:18:42+00:00 ― 5 leggere min

Suono Sviluppi nelle Tecniche di Conversione degli Accenti

Un nuovo metodo per generare discorsi con accenti usando la traslitterazione del testo.

2025-06-11T06:18:05+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Migliorare la qualità del parlato con Wave-U-Mamba

Wave-U-Mamba migliora le registrazioni vocali di bassa qualità per una comunicazione più chiara.

2025-06-11T04:40:55+00:00 ― 5 leggere min

Suono Sviluppi nella Valutazione della Qualità del Parlato

Un nuovo sistema prevede punteggi di naturalità per il parlato sintetico usando metodi innovativi.

2025-06-11T03:52:20+00:00 ― 6 leggere min