Informatica - Suono

RSS

Calcolo e linguaggio Progressi nella tecnologia Text-to-Speech

Nuovi metodi migliorano la qualità della voce sintetizzata usando l'apprendimento auto-supervisionato.

2025-09-30T17:37:25+00:00 ― 5 leggere min

Calcolo e linguaggio Migliorare il riconoscimento vocale con il potenziamento delle parole chiave

Un nuovo metodo migliora la trascrizione di parole chiave rare nelle conversazioni aziendali.

2025-09-30T10:20:10+00:00 ― 6 leggere min

Suono Avanzare il riconoscimento vocale con l'apprendimento federato

L'apprendimento federato migliora il riconoscimento vocale mantenendo i dati dell'utente privati.

2025-09-30T08:43:00+00:00 ― 6 leggere min

Suono MusicLDM: Un Nuovo Approccio alla Generazione di Musica da Testo

MusicLDM trasforma il testo in musica originale, offrendo nuove strade per la creatività.

2025-09-30T05:28:40+00:00 ― 7 leggere min

Suono Migliorare le tecniche di estrazione della melodia cantata con il deep learning

Nuovi metodi migliorano l'accuratezza nell'estrazione delle melodie cantate da audio misti.

2025-09-30T01:25:45+00:00 ― 7 leggere min

Calcolo e linguaggio Sviluppi nella tecnologia dei sottotitoli audio

Nuovi metodi puntano a migliorare il captioning audio per una maggiore precisione ed efficienza.

2025-09-30T00:25:00+00:00 ― 5 leggere min

Suono Sviluppi nelle tecniche di miglioramento del suono

Nuovo modello migliora la chiarezza del parlato in ambienti rumorosi usando metodi innovativi.

2025-09-29T22:11:25+00:00 ― 5 leggere min

Suono Analizzando le canzoni popolari coreane attraverso la tecnologia

Uno studio sulle canzoni popolari coreane usando metodi analitici moderni.

2025-09-29T21:22:50+00:00 ― 8 leggere min

Grafica DiffDance: Una Nuova Era nella Generazione di Danza

DiffDance crea sequenze di danza dettagliate che si abbinano alla musica in modo efficace.

2025-09-29T16:31:20+00:00 ― 6 leggere min

Suono Affrontare il pregiudizio di genere nella trascrizione della voce cantata

Esaminare l'equità nella tecnologia di trascrizione della voce cantata tra i generi.

2025-09-29T15:42:45+00:00 ― 8 leggere min

Suono Avanzamenti nella personalizzazione delle parole chiave per i sistemi ASR

SeACo-Paraformer porta flessibilità e precisione alla tecnologia di riconoscimento vocale.

2025-09-29T14:05:35+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Esaminare la Qualità della Voce e il Suo Impatto

Questo studio esplora i metodi di classificazione della qualità della voce e il loro significato nella comunicazione.

2025-09-29T12:28:25+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Sviluppi nella tecnologia di controllo attivo del rumore

Scopri come i nuovi algoritmi migliorano le tecniche di cancellazione del rumore per diverse applicazioni.

2025-09-29T05:59:45+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Nuovo strumento misura la qualità audio con insights video

AudioVMAF combina metriche video per una valutazione della qualità audio migliorata.

2025-09-29T01:56:50+00:00 ― 6 leggere min

Suono Avanzamenti nella rilevazione di audio falso con RAWM

Un nuovo metodo migliora la rilevazione di audio falso usando la modifica dei pesi adattivi.

2025-09-29T01:08:15+00:00 ― 6 leggere min

Crittografia e sicurezza La crescente necessità di steganalisi nella sicurezza informatica

La steganalisi aiuta a scoprire messaggi nascosti nei multimedia, garantendo comunicazioni sicure.

2025-09-28T23:31:05+00:00 ― 4 leggere min

Multimedia TranSTYLer: Un Salto nella Comunicazione Virtuale

Trasformare i gesti per agenti virtuali mantenendo il significato.

2025-09-28T18:39:35+00:00 ― 6 leggere min

Suono Progressi nella Localizzazione delle Fonti Sonore con le Reti Neurali

Esplorando come le reti neurali migliorano l'accuratezza della localizzazione delle sorgenti sonore.

2025-09-28T12:10:55+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare il riconoscimento vocale punjabi con metodi di autoformazione

I ricercatori migliorano il riconoscimento vocale automatico per il punjabi usando tecniche di auto-addestramento innovative.

2025-09-28T08:56:35+00:00 ― 6 leggere min

Suono Progressi nel riconoscimento vocale per il parlatore target

Un nuovo modello migliora il riconoscimento vocale in ambienti rumorosi concentrandosi su un singolo parlante.

2025-09-28T08:08:00+00:00 ― 4 leggere min

Suono Bilanciare la privacy e il monitoraggio audio intelligente

Nuovi metodi mirano a proteggere la privacy del parlato nei sistemi di monitoraggio audio.

2025-09-28T06:30:50+00:00 ― 5 leggere min

Calcolo e linguaggio Avanzando la sintesi vocale espressiva con un nuovo dataset

Un nuovo dataset migliora la sintesi vocale catturando l'espressione emotiva senza fare affidamento sul testo.

2025-09-27T18:22:05+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Migliorare la classificazione dell'intonazione musicale con SDTW

Nuove strategie per migliorare la stabilità dell'allenamento nella classificazione delle altezze musicali.

2025-09-27T13:30:35+00:00 ― 6 leggere min

Suono Avanzamenti nella tecnologia di conversione vocale

Phoneme Hallucinator trasforma la conversione vocale con dati limitati per risultati più chiari.

2025-09-27T10:16:15+00:00 ― 5 leggere min

Suono Avanzando la Generazione di Gestures per Umani Digitali

Un nuovo metodo crea gesti realistici a partire da audio vocale grezzo.

2025-09-27T08:39:05+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzare nel riconoscimento vocale bilingue con unità grafiche

Migliorare i sistemi ASR ibridi per il parlato bilingue usando unità grafiche.

2025-09-27T03:47:35+00:00 ― 6 leggere min

Calcolo e linguaggio Progressi nell'apprendimento congiunto di discorso e testo

Un nuovo modello migliora l'allineamento di parlato e testo per una migliore riconoscimento automatico.

2025-09-27T02:10:25+00:00 ― 6 leggere min

Suono Progressi nel riconoscimento visivo del parlato con Lip2Vec

Lip2Vec migliora il riconoscimento visivo del parlato usando meno dati etichettati.

2025-09-27T01:21:50+00:00 ― 7 leggere min

Calcolo e linguaggio Sviluppi nella tecnologia di riconoscimento vocale

Nuovi metodi migliorano l'accuratezza e la velocità nei sistemi di riconoscimento vocale.

2025-09-26T11:35:55+00:00 ― 5 leggere min

Apprendimento automatico O-1: Una Nuova Frontiera nell'Addestramento al Riconoscimento Vocale

O-1 migliora il riconoscimento vocale ottimizzando i metodi di auto-apprendimento.

2025-09-26T09:10:10+00:00 ― 5 leggere min

Calcolo e linguaggio Migliorare il Riconoscimento Vocale Automatico con Iniezione di Testo

Un nuovo metodo migliora le prestazioni dell'ASR attraverso l'integrazione dei dati testuali.

2025-09-26T07:33:00+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare il riconoscimento vocale con l'iniezione di testo

L'inserimento di testo aiuta a riconoscere le informazioni personali mantenendo la privacy.

2025-09-26T06:44:25+00:00 ― 5 leggere min

Suono Progressi nella Rilevazione degli Eventi Sonori Utilizzando l'Apprendimento Generativo

Scopri come le nuove tecniche stanno trasformando il rilevamento degli eventi sonori per diverse applicazioni.

2025-09-26T05:55:50+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato L'importanza del processamento audio non lineare

Esplorare metodi non lineari nell'audio per la produzione musicale e l'analisi del parlato.

2025-09-26T03:30:05+00:00 ― 6 leggere min

Suono Progressi nell'Estrazione del Pitch con PitchNet

Un nuovo metodo per una rilevazione precisa del pitch nella musica e nei suoni.

2025-09-26T02:41:30+00:00 ― 6 leggere min

Suono Avanzamenti nel riconoscimento vocale con tecnologia mmWave

Radio2Text usa segnali mmWave per il riconoscimento vocale in tempo reale in ambienti rumorosi.

2025-09-25T22:38:35+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Valutazione di un sistema di mascheramento del suono automatico nei parchi urbani

Uno studio esamina l'efficacia dei mascheratori di suono automatici negli spazi pubblici.

2025-09-25T18:35:40+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nel riconoscimento vocale con reti neurali grafiche

Le reti neurali grafiche migliorano l'accuratezza del riconoscimento vocale analizzando le relazioni tra i campioni vocali.

2025-09-25T09:41:15+00:00 ― 5 leggere min

Calcolo e linguaggio Progressi nel riconoscimento delle emozioni vocali tra le lingue

Uno studio che valuta il riconoscimento delle emozioni nei modelli di linguaggio in sei lingue.

2025-09-25T08:04:05+00:00 ― 5 leggere min

Suono AffectEcho: Colmare le Emozioni nel Parlare dell'IA

Il modello AffectEcho migliora l'espressione emotiva nel parlato generato dall'IA.

2025-09-25T07:15:30+00:00 ― 6 leggere min