SeACo-Paraformer porta flessibilità e precisione alla tecnologia di riconoscimento vocale.

2025-09-29T14:05:35+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Esaminare la Qualità della Voce e il Suo Impatto

Questo studio esplora i metodi di classificazione della qualità della voce e il loro significato nella comunicazione.

2025-09-29T12:28:25+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Sviluppi nella tecnologia di controllo attivo del rumore

Scopri come i nuovi algoritmi migliorano le tecniche di cancellazione del rumore per diverse applicazioni.

2025-09-29T05:59:45+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Nuovo strumento misura la qualità audio con insights video

AudioVMAF combina metriche video per una valutazione della qualità audio migliorata.

2025-09-29T01:56:50+00:00 ― 6 leggere min

Suono Avanzamenti nella rilevazione di audio falso con RAWM

Un nuovo metodo migliora la rilevazione di audio falso usando la modifica dei pesi adattivi.

2025-09-29T01:08:15+00:00 ― 6 leggere min

Crittografia e sicurezza La crescente necessità di steganalisi nella sicurezza informatica

La steganalisi aiuta a scoprire messaggi nascosti nei multimedia, garantendo comunicazioni sicure.

2025-09-28T23:31:05+00:00 ― 4 leggere min

Multimedia TranSTYLer: Un Salto nella Comunicazione Virtuale

Trasformare i gesti per agenti virtuali mantenendo il significato.

2025-09-28T18:39:35+00:00 ― 6 leggere min

Suono Progressi nella Localizzazione delle Fonti Sonore con le Reti Neurali

Esplorando come le reti neurali migliorano l'accuratezza della localizzazione delle sorgenti sonore.

2025-09-28T12:10:55+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare il riconoscimento vocale punjabi con metodi di autoformazione

I ricercatori migliorano il riconoscimento vocale automatico per il punjabi usando tecniche di auto-addestramento innovative.

2025-09-28T08:56:35+00:00 ― 6 leggere min

Suono Progressi nel riconoscimento vocale per il parlatore target

Un nuovo modello migliora il riconoscimento vocale in ambienti rumorosi concentrandosi su un singolo parlante.

2025-09-28T08:08:00+00:00 ― 4 leggere min

Suono Bilanciare la privacy e il monitoraggio audio intelligente

Nuovi metodi mirano a proteggere la privacy del parlato nei sistemi di monitoraggio audio.

2025-09-28T06:30:50+00:00 ― 5 leggere min

Calcolo e linguaggio Avanzando la sintesi vocale espressiva con un nuovo dataset

Un nuovo dataset migliora la sintesi vocale catturando l'espressione emotiva senza fare affidamento sul testo.

2025-09-27T18:22:05+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Migliorare la classificazione dell'intonazione musicale con SDTW

Nuove strategie per migliorare la stabilità dell'allenamento nella classificazione delle altezze musicali.

2025-09-27T13:30:35+00:00 ― 6 leggere min

Suono Avanzamenti nella tecnologia di conversione vocale

Phoneme Hallucinator trasforma la conversione vocale con dati limitati per risultati più chiari.

2025-09-27T10:16:15+00:00 ― 5 leggere min

Suono Avanzando la Generazione di Gestures per Umani Digitali

Un nuovo metodo crea gesti realistici a partire da audio vocale grezzo.

2025-09-27T08:39:05+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzare nel riconoscimento vocale bilingue con unità grafiche

Migliorare i sistemi ASR ibridi per il parlato bilingue usando unità grafiche.

2025-09-27T03:47:35+00:00 ― 6 leggere min

Calcolo e linguaggio Progressi nell'apprendimento congiunto di discorso e testo

Un nuovo modello migliora l'allineamento di parlato e testo per una migliore riconoscimento automatico.

2025-09-27T02:10:25+00:00 ― 6 leggere min

Suono Progressi nel riconoscimento visivo del parlato con Lip2Vec

Lip2Vec migliora il riconoscimento visivo del parlato usando meno dati etichettati.

2025-09-27T01:21:50+00:00 ― 7 leggere min

Calcolo e linguaggio Sviluppi nella tecnologia di riconoscimento vocale

Nuovi metodi migliorano l'accuratezza e la velocità nei sistemi di riconoscimento vocale.

2025-09-26T11:35:55+00:00 ― 5 leggere min

Apprendimento automatico O-1: Una Nuova Frontiera nell'Addestramento al Riconoscimento Vocale

O-1 migliora il riconoscimento vocale ottimizzando i metodi di auto-apprendimento.

2025-09-26T09:10:10+00:00 ― 5 leggere min

Calcolo e linguaggio Migliorare il Riconoscimento Vocale Automatico con Iniezione di Testo

Un nuovo metodo migliora le prestazioni dell'ASR attraverso l'integrazione dei dati testuali.

2025-09-26T07:33:00+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare il riconoscimento vocale con l'iniezione di testo

L'inserimento di testo aiuta a riconoscere le informazioni personali mantenendo la privacy.

2025-09-26T06:44:25+00:00 ― 5 leggere min

Suono Progressi nella Rilevazione degli Eventi Sonori Utilizzando l'Apprendimento Generativo

Scopri come le nuove tecniche stanno trasformando il rilevamento degli eventi sonori per diverse applicazioni.

2025-09-26T05:55:50+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato L'importanza del processamento audio non lineare

Esplorare metodi non lineari nell'audio per la produzione musicale e l'analisi del parlato.

2025-09-26T03:30:05+00:00 ― 6 leggere min

Suono Progressi nell'Estrazione del Pitch con PitchNet

Un nuovo metodo per una rilevazione precisa del pitch nella musica e nei suoni.

2025-09-26T02:41:30+00:00 ― 6 leggere min

Suono Avanzamenti nel riconoscimento vocale con tecnologia mmWave

Radio2Text usa segnali mmWave per il riconoscimento vocale in tempo reale in ambienti rumorosi.

2025-09-25T22:38:35+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Valutazione di un sistema di mascheramento del suono automatico nei parchi urbani

Uno studio esamina l'efficacia dei mascheratori di suono automatici negli spazi pubblici.

2025-09-25T18:35:40+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nel riconoscimento vocale con reti neurali grafiche

Le reti neurali grafiche migliorano l'accuratezza del riconoscimento vocale analizzando le relazioni tra i campioni vocali.

2025-09-25T09:41:15+00:00 ― 5 leggere min

Calcolo e linguaggio Progressi nel riconoscimento delle emozioni vocali tra le lingue

Uno studio che valuta il riconoscimento delle emozioni nei modelli di linguaggio in sei lingue.

2025-09-25T08:04:05+00:00 ― 5 leggere min

Suono AffectEcho: Colmare le Emozioni nel Parlare dell'IA

Il modello AffectEcho migliora l'espressione emotiva nel parlato generato dall'IA.

2025-09-25T07:15:30+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare la conversione da grafema a fonema con un nuovo metodo di campionamento

Questo studio migliora i modelli G2P concentrandosi sulle aree soggette a errori durante l'addestramento.

2025-09-25T05:38:20+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Sviluppi nelle tecniche di tracciamento dei formanti

Scopri metodi che migliorano l'accuratezza nel tracciamento dei formanti per l'analisi del parlato.

2025-09-24T22:21:05+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Usare l'analisi vocale per valutare la gravità del Parkinson

I ricercatori sviluppano metodi basati sulla voce per una valutazione più precisa del morbo di Parkinson.

2025-09-24T21:32:30+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Avanzare nel Rilevamento Sonoro con Tecniche di Meta-Apprendimento

Meta-SELD migliora la localizzazione degli eventi sonori in ambienti diversi.

2025-09-24T19:55:20+00:00 ― 6 leggere min

Apprendimento automatico Momenti audiovisivi nel tempo: un nuovo dataset per il riconoscimento delle azioni

AVMIT offre ai ricercatori spunti su come suono e visione si collegano nel riconoscimento delle azioni.

2025-09-24T07:46:35+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Progressi nella previsione della qualità audio con GML

Un nuovo modello di intelligenza artificiale migliora la previsione dei punteggi di qualità audio.

2025-09-24T03:43:40+00:00 ― 6 leggere min

Suono Generazione di Musica AI: Uno Studio sulle Tecniche di Campionamento

Questa ricerca esamina come i metodi di campionamento influenzano la qualità della musica generata dall'IA.

2025-09-24T02:55:05+00:00 ― 6 leggere min

Suono Progressi nella tecnologia anti-spoofing audio

Un nuovo metodo migliora il rilevamento di audio falso nei sistemi di riconoscimento vocale.

2025-09-23T23:40:45+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Progressi nel Beat Tracking per la Musica Classica

Nuovi metodi migliorano l'accuratezza del beat tracking nella musica classica complessa.

2025-09-23T14:46:20+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Capire il Ruolo della Diarizzazione Linguistica

Uno sguardo a come la diarizzazione linguistica aiuta nelle conversazioni multilingue.

2025-09-22T23:23:15+00:00 ― 5 leggere min

Informatica - Suono