Articoli più recenti per Tecnologia del parlato

Suono DiCon: Un Nuovo Approccio alla Sintesi Vocale

Presentiamo un metodo più veloce per la sintesi vocale di alta qualità usando modelli di diffusione.

2025-09-09T03:24:05+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato HiFTNet: Avanzando la tecnologia Text-to-Speech

HiFTNet offre una sintesi vocale più veloce e di alta qualità usando tecniche innovative ed efficienti.

2025-09-09T02:35:30+00:00 ― 5 leggere min

Suono Migliorare il riconoscimento vocale con l'addestramento al momento del test

Esplora come TTT migliora il riconoscimento vocale adattandosi ai cambiamenti di distribuzione.

2025-09-08T14:26:45+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Presentiamo il Modello SPGM per la Separazione del Parlato

Un nuovo modello migliora l'efficienza e le prestazioni nella separazione del parlato.

2025-09-07T10:54:55+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Migliorare il riconoscimento vocale con tecniche di aumento audio

Uno studio mostra che l'augmented audio può migliorare il riconoscimento vocale nelle lingue a bassa risorsa.

2025-09-06T09:48:50+00:00 ― 6 leggere min

Suono Trasformare i movimenti della lingua in suoni parla

Questo studio trasforma i dati della risonanza magnetica della lingua in audio vocale reale.

2025-09-04T22:11:10+00:00 ― 4 leggere min

Calcolo e linguaggio Migliorare il riconoscimento vocale con l'adattamento a bassa rank

Un nuovo metodo migliora l'efficienza del riconoscimento vocale usando l'adattamento a basso rango.

2025-09-04T00:19:25+00:00 ― 5 leggere min

Calcolo e linguaggio HyPoradise: Migliorare l'accuratezza del riconoscimento vocale automatico

Un nuovo punto di riferimento per migliorare la precisione dell'ASR usando modelli di linguaggio.

2025-09-02T23:13:20+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Sviluppi nei modelli di sintesi vocale conversazionale

Un nuovo approccio per generare discorsi piccoli, efficienti e che suonano naturali.

2025-08-31T09:41:00+00:00 ― 9 leggere min

Calcolo e linguaggio Migliorare il Riconoscimento Vocale con Dati Acustici

Un nuovo metodo integra informazioni acustiche nei modelli linguistici per una migliore riconoscimento vocale.

2025-08-25T02:15:55+00:00 ― 9 leggere min

Suono Catturare il Ritmo del Parlato: Un Nuovo Metodo

Un nuovo modo per sintetizzare voci con un'accuratezza del ritmo migliorata.

2025-08-24T23:50:10+00:00 ― 9 leggere min

Elaborazione dell'audio e del parlato Progressi nella tecnologia Text-to-Speech

Tecniche innovative per migliorare i modelli TTS e ridurre la perdita di conoscenza.

2025-08-23T08:09:35+00:00 ― 6 leggere min

Suono Effetti della Dimensione del Batch sul Training del Modello di Parlato

Questo studio esamina come la dimensione del batch influisce sulle prestazioni e sull'addestramento dei modelli di linguaggio.

2025-08-22T20:00:50+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Migliorare i modelli di parola con RobustDistiller

Un nuovo metodo migliora le prestazioni del modello di parlato e l'efficienza in ambienti rumorosi.

2025-08-18T05:53:30+00:00 ― 6 leggere min

Suono Avanzamenti nelle caratteristiche vocali del Text-to-Speech

Uno studio per migliorare i sistemi TTS con campioni vocali diversi.

2025-08-16T12:35:45+00:00 ― 5 leggere min

Calcolo e linguaggio Classificare i sottodialetti kurdi sorani attraverso dati audio

La ricerca identifica e classifica i dialetti curdi sorani usando registrazioni audio estese.

2025-08-14T07:57:50+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Migliorare il Text-to-Speech con RALL-E

RALL-E migliora la sintesi testo-parola per un parlato più chiaro e naturale.

2025-08-13T01:11:40+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzando l'apprendimento audio con M2D e M2D-X

Nuovi metodi migliorano la rappresentazione audio attraverso tecniche di apprendimento self-supervised.

2025-08-12T07:22:50+00:00 ― 6 leggere min

Suono Sviluppi nella tecnologia di editing delle caratteristiche vocali

Il nuovo modello permette di controllare con precisione le qualità della voce mantenendo il contenuto.

2025-08-11T18:25:30+00:00 ― 4 leggere min

Elaborazione dell'audio e del parlato Valutare i modelli di elaborazione del parlato con SUPERB

Un nuovo framework per valutare i modelli di base nei compiti di parlato.

2025-08-11T09:31:05+00:00 ― 8 leggere min

Interazione uomo-macchina Reazioni degli utenti agli agenti vocali adattivi

Uno studio rivela che gli utenti preferiscono agenti vocali statici piuttosto che quelli adattivi.

2025-08-11T09:29:30+00:00 ― 8 leggere min

Elaborazione dell'audio e del parlato FlashSpeech: Un Salto nella Sintesi Vocale

FlashSpeech offre soluzioni di sintesi vocale rapide e di alta qualità.

2025-08-10T03:33:30+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Avanzamento dell'estrazione del parlatore audio-visivo con SEANet

SEANet migliora l'isolamento degli altoparlanti riducendo il rumore nell'elaborazione audio.

2025-08-08T20:47:20+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Avanzando l'ASR: Un Nuovo Approccio all'Apprendimento

Un metodo di apprendimento attivo in due fasi migliora l'accuratezza del riconoscimento vocale con meno dati.

2025-08-08T02:09:55+00:00 ― 5 leggere min

Calcolo e linguaggio Valutare i sistemi ASR per la parlata balbettante

Questo studio valuta le performance dei sistemi ASR con persone che balbettano.

2025-08-07T04:18:10+00:00 ― 8 leggere min

Calcolo e linguaggio Esaminare la sicurezza dei modelli di linguaggio

Questo articolo esplora le vulnerabilità nei modelli di discorso e i modi per migliorare la loro sicurezza.

2025-08-05T23:09:10+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Progressi nella tecnologia di riconoscimento delle emozioni nella voce

Nuovi metodi migliorano il modo in cui le macchine riconoscono le emozioni nel parlato.

2025-08-02T13:22:15+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nella tecnologia Text-to-Speech

Seed-TTS crea una voce realistica partendo dal testo per vari usi.

2025-08-01T10:39:00+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nella sintesi vocale con ARDiT

Il nuovo modello ARDiT migliora la sintesi testo-voce e l'editing vocale.

2025-07-31T07:55:45+00:00 ― 6 leggere min

Calcolo e linguaggio Presentiamo mHuBERT-147: Un Modello di Voce Compatto

mHuBERT-147 elabora il parlato in più lingue in modo efficiente.

2025-07-30T22:12:45+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nel Riconoscimento Vocale Automatico con TTA Dinamico

Nuovi metodi migliorano il riconoscimento vocale in ambienti rumorosi usando tecniche adattive.

2025-07-29T13:49:25+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Nuovo Framework per una Produzione del Parlato Chiara

Un nuovo metodo per ottimizzare l'analisi e la sintesi del parlato usando i movimenti del tratto vocale.

2025-07-28T20:49:10+00:00 ― 7 leggere min

Suono Migliorare la diarizzazione dei relatori con gli embeddings vocali

Uno studio per migliorare la segmentazione audio integrando gli embeddings degli speaker.

2025-07-24T21:16:20+00:00 ― 6 leggere min

Calcolo e linguaggio Colmare il divario nei dialetti Yoruba

Nuovi sforzi mirano a supportare i dialetti Yoruba nella tecnologia linguistica.

2025-07-23T15:03:36+00:00 ― 6 leggere min

Calcolo e linguaggio Wav2Vec2.0 e il Suono del Riconoscimento Vocale

Questo articolo parla di come Wav2Vec2.0 elabora i suoni della voce usando la fonologia.

2025-07-23T05:35:45+00:00 ― 5 leggere min

Calcolo e linguaggio Avanzare la tecnologia del parlato per l'arabo tunisino

Questo studio valuta la tecnologia vocale in lingue a basso costo come l'arabo tunisino.

2025-07-21T12:18:00+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Migliorare la sintesi vocale con la modellazione sub-centro

Migliorare la sintesi vocale per una generazione di voce più naturale ed espressiva.

2025-07-21T03:23:35+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Un nuovo modo per modificare i suoni del parlato

Introducendo un metodo per avere un controllo migliore nell'editing del parlato.

2025-07-20T12:49:05+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Presentiamo Emilia: Un Nuovo Dataset per la Generazione del Discorso

Emilia offre un dataset vario per migliorare i modelli di generazione vocale.

2025-07-20T09:34:45+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Valutare l'efficienza di Mamba nella tecnologia del parlato

Mamba promette bene contro i transformers nei compiti di linguaggio, specialmente per input lunghi.

2025-07-17T13:33:45+00:00 ― 5 leggere min