Ingegneria elettrica e scienze dei sistemi - Elaborazione dell'audio e del parlato

RSS

Suono Progressi nelle Tecniche di Separazione del Parlato

Un nuovo approccio non supervisionato migliora l'isolamento della voce nei mix audio.

2025-11-07T23:50:55+00:00 ― 4 leggere min

Suono ML-SUPERB: Valutazione dei modelli di parlato multilingue

Un nuovo benchmark per valutare i modelli di machine learning nella comprensione del parlato tra le lingue.

2025-11-07T23:02:20+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare la classificazione delle fonemi nel riconoscimento vocale

Questo articolo parla di metodi per migliorare la classificazione dei telefoni usando le caratteristiche audio.

2025-11-07T21:25:10+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Avanzando l'IA: Comprensione Audio Simile agli Umani

Un nuovo modello migliora la percezione audio e le capacità di ragionamento nell'AI.

2025-11-07T16:33:40+00:00 ― 6 leggere min

Suono Progressi nella Separazione del Parlato con NASS

NASS migliora l'isolamento vocale in ambienti rumorosi, superando i metodi tradizionali.

2025-11-07T15:45:05+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Migliorare le voci sintetiche attraverso il miglioramento audio

Un nuovo modo per migliorare la qualità audio nella creazione di voci sintetiche.

2025-11-07T14:07:55+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nella rilevazione degli eventi sonori con l'apprendimento multi-task

Nuove tecniche migliorano l'efficienza del riconoscimento sonoro e riducono i costi di etichettatura.

2025-11-07T13:19:20+00:00 ― 6 leggere min

Suono Aggiornare le metriche di qualità del suono per una maggiore accuratezza

Migliorare le metriche di qualità del suono usando nuovi metodi di calcolo del volume.

2025-11-07T12:30:45+00:00 ― 5 leggere min

Calcolo e linguaggio Progressi nella Traduzione Vocale in Tempo Reale

AlignAtt migliora la traduzione del discorso simultanea con una velocità e una qualità superiori.

2025-11-07T11:42:10+00:00 ― 5 leggere min

Suono Bilanciare privacy ed efficienza nei modelli di linguaggio

Un nuovo metodo garantisce la privacy nella classificazione del linguaggio senza compromettere le prestazioni.

2025-11-07T10:05:00+00:00 ― 6 leggere min

Suono Adattare gli accenti della sintesi vocale con facilità

Questo studio mostra come adattare la tecnologia TTS a diversi accenti in modo efficiente.

2025-11-07T09:16:25+00:00 ― 5 leggere min

Interazione uomo-macchina Avanzare Agenti Socialmente Interattivi con il Modello AMII

Il modello AMII migliora la comunicazione per agenti socialmente interattivi attraverso un comportamento non verbale migliore.

2025-11-07T08:27:50+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Migliorare il rilevamento del Parkinson con l'apprendimento federato

Usare l'apprendimento federato per migliorare l'analisi vocale nella diagnosi del Parkinson in diverse lingue.

2025-11-07T07:39:15+00:00 ― 6 leggere min

Calcolo e linguaggio Identificare i dialetti arabi con tecniche moderne

Questo studio si concentra sul riconoscimento dei dialetti arabi usando metodi avanzati e dati limitati.

2025-11-07T06:02:05+00:00 ― 4 leggere min

Visione artificiale e riconoscimento di modelli Un Nuovo Modello per l'Elaborazione di Dati Multi-Modali

Presentiamo un modello che integra diversi tipi di dati per compiti complessi.

2025-11-07T05:13:30+00:00 ― 6 leggere min

Suono Progressi nella Rilevazione Sonora Bioacustica

I ricercatori stanno migliorando il modo in cui rileviamo automaticamente i suoni degli animali.

2025-11-07T05:03:27+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Le versatili abilità di riconoscimento vocale di Whisper

Scopri come Whisper si adatta a diversi compiti di parola usando l'ingegneria dei prompt.

2025-11-07T04:24:55+00:00 ― 5 leggere min

Calcolo e linguaggio Migliorare il riconoscimento vocale per le lingue minoritarie

Questo studio esamina modi per migliorare l'ASR per lingue a bassa risorsa usando tecniche di dati.

2025-11-07T01:59:10+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato FastFit: Un Nuovo Approccio alla Generazione del Parlato

FastFit migliora la velocità di generazione del parlato senza perdere qualità del suono.

2025-11-07T00:22:00+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nel riconoscimento delle parole chiave con TACos

Un nuovo metodo migliora il rilevamento delle parole chiave nelle registrazioni audio.

2025-11-06T23:33:25+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Un nuovo metodo per misurare il movimento della lingua nel parlato

Questo studio presenta un metodo per misurare meglio il movimento della lingua durante il parlato usando dati a raggi X.

2025-11-06T21:56:15+00:00 ― 6 leggere min

Suono Sviluppi nella diarizzazione degli speaker con AED-EEND

Il sistema AED-EEND migliora la diarizzazione degli speaker integrando tecniche avanzate per una precisione migliore.

2025-11-06T20:19:05+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Pengi: Collegare Audio e Elaborazione Testi

Pengi unisce comprensione audio e generazione di testo in un unico modello.

2025-11-06T19:30:30+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Ridurre la latenza nel riconoscimento vocale con CTC penalizzato per il ritardo

Un nuovo approccio punta a ridurre al minimo i ritardi nei sistemi di riconoscimento vocale, mantenendo però l'accuratezza.

2025-11-06T17:53:20+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzare nel riconoscimento delle parole chiave con l'apprendimento continuo

Un nuovo metodo migliora i sistemi di riconoscimento delle parole chiave per una migliore performance in audio variabile.

2025-11-06T17:04:45+00:00 ― 5 leggere min

Suono Progressi nella tecnologia Text-to-Speech multilingue

Un nuovo sistema TTS migliora la generazione del parlato in diverse lingue con dati limitati.

2025-11-06T13:50:25+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Diffusione Componibile: Una Nuova Frontiera nella Creazione di Contenuti

CoDi permette di generare contemporaneamente diversi tipi di contenuti da vari input.

2025-11-06T13:01:50+00:00 ― 4 leggere min

Suono Progressi nella separazione del suono usando il deep learning

Nuove tecniche migliorano la separazione del suono dalle mescole Ambisonics per esperienze audio migliori.

2025-11-06T12:13:15+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Sviluppi nelle tecniche di compressione dei modelli vocali

Un nuovo metodo migliora i modelli di linguaggio riducendo al contempo le risorse necessarie.

2025-11-06T11:24:40+00:00 ― 6 leggere min

Suono Sviluppi nel monitoraggio della salute basato sulla parola

Nuovi metodi che usano la voce sembrano promettenti per identificare i modelli respiratori e le condizioni di salute.

2025-11-06T10:36:05+00:00 ― 5 leggere min

Suono MIDI-Draw: Un Nuovo Modo per Creare Melodie

MIDI-Draw permette a chiunque di fare musica disegnando melodie in modo intuitivo.

2025-11-06T09:47:30+00:00 ― 5 leggere min

Suono Metodi innovativi per valutare la qualità audio

Nuove tecniche che prendono in prestito dall'elaborazione delle immagini migliorano la valutazione della qualità audio.

2025-11-06T08:58:55+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Migliorare il Riconoscimento Vocale: Nuove Tecniche per Velocità e Precisione

Nuovi metodi aumentano l'efficienza nei sistemi di riconoscimento vocale senza perdere precisione.

2025-11-06T08:10:20+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Innovazioni nella elaborazione del parlato con dati visivi

Nuovi metodi migliorano la comprensione del parlato da parte delle macchine utilizzando segnali audio e visivi.

2025-11-06T07:21:45+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Sviluppi nel riconoscimento delle parole chiave in ambienti rumorosi

Nuovo modello migliora il riconoscimento delle parole chiave in situazioni acustiche difficili.

2025-11-06T04:07:25+00:00 ― 6 leggere min

Calcolo e linguaggio i-Code V2: Un nuovo modello per l'elaborazione di dati misti

i-Code V2 integra visione, lingua e parlato per risposte AI migliori.

2025-11-06T03:18:50+00:00 ― 5 leggere min

Calcolo e linguaggio Migliorare la comprensione del parlato con la distillazione della conoscenza

Un nuovo metodo migliora i modelli di parlato trasferendo conoscenza dai modelli di testo.

2025-11-06T01:41:40+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Coswara Dataset: Strumento Innovativo per la Rilevazione del COVID-19

Una raccolta di suoni respiratori aiuta a identificare i casi di COVID-19.

2025-11-06T00:12:57+00:00 ― 4 leggere min

Suono ACA-Net: Avanzando i Sistemi di Verifica dell'Identità Vocale

Un nuovo modello migliora la verifica dell'identità dell'altoparlante con tecniche efficienti.

2025-11-05T23:15:55+00:00 ― 5 leggere min

Suono Avanzamenti nei Sistemi di Riconoscimento Vocale per la Sfida VoxCeleb

Uno sguardo dettagliato alle tecniche di riconoscimento vocale sviluppate per la competizione del 2022.

2025-11-05T21:38:45+00:00 ― 5 leggere min