Ingegneria elettrica e scienze dei sistemi - Elaborazione dell'audio e del parlato

RSS

Suono Sviluppi nelle tecniche di separazione musicale

Nuovi benchmark migliorano i modelli di separazione audio per musica e intrattenimento.

2025-11-10T02:03:05+00:00 ― 5 leggere min

Articoli più recenti

Elaborazione dell'audio e del parlato Avanzamenti nella tecnologia di riconoscimento vocale automatico

2025-11-09T22:48:45+00:00 ― 4 leggere min

Calcolo e linguaggio Sfide e Soluzioni nel Riconoscimento Vocale Automatico

2025-11-09T16:20:05+00:00 ― 6 leggere min

Suono Approcci Innovativi alla Riorganizzazione della Musica

2025-11-09T15:31:30+00:00 ― 6 leggere min

Suono Sviluppi nella Sintesi Vocale con TorToise

2025-11-09T14:42:55+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Avanzare nel Riconoscimento Vocale Grazie agli Insight Emotivi

2025-11-09T09:02:50+00:00 ― 5 leggere min

Articoli più recenti

Suono Tecniche semplificate di sintesi FM e PM

Impara a usare bene FM e PM nel sound design.

2025-11-09T08:14:15+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Sviluppi nella riduzione del rumore degli apparecchi acustici

Scopri nuovi metodi per migliorare le prestazioni degli apparecchi acustici e la chiarezza del parlato.

2025-11-09T06:37:05+00:00 ― 5 leggere min

Suono Nuovo approccio auto-supervisionato per il riconoscimento vocale

Un nuovo metodo migliora i compiti di riconoscimento vocale usando meno dati etichettati.

2025-11-09T00:08:25+00:00 ― 6 leggere min

Suono Sviluppi nelle tecniche di sottotitolazione audio

Questo articolo esamina i recenti miglioramenti nella creazione di descrizioni audio scritte.

2025-11-08T21:42:40+00:00 ― 5 leggere min

Suono Nuovo sistema di riconoscimento audio per TV

Tecnologia di riconoscimento audio efficiente progettata per dispositivi TV a basso consumo.

2025-11-08T13:36:50+00:00 ― 5 leggere min

Suono Presentiamo SCHmUBERT: Un Nuovo Modello per la Generazione Musicale

SCHmUBERT offre un approccio fresco per creare musica simbolica con l'IA.

2025-11-08T12:48:15+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Affrontare l'invasione di Pomacea canaliculata

Usare l'IA per identificare le uova di lumaca rosa invasive per una gestione migliore.

2025-11-08T11:11:05+00:00 ― 6 leggere min

Suono Progressi nella stima della fiducia per il riconoscimento vocale

Un nuovo modello aumenta i punteggi di fiducia nei sistemi di riconoscimento vocale.

2025-11-08T02:16:40+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nel Riconoscimento del Parlato Disartrico

Nuove tecniche migliorano la comprensione del linguaggio disartrico nei sistemi di comunicazione.

2025-11-08T01:28:05+00:00 ― 5 leggere min

Suono Progressi nelle Tecniche di Separazione del Parlato

Un nuovo approccio non supervisionato migliora l'isolamento della voce nei mix audio.

2025-11-07T23:50:55+00:00 ― 4 leggere min

Suono ML-SUPERB: Valutazione dei modelli di parlato multilingue

Un nuovo benchmark per valutare i modelli di machine learning nella comprensione del parlato tra le lingue.

2025-11-07T23:02:20+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare la classificazione delle fonemi nel riconoscimento vocale

Questo articolo parla di metodi per migliorare la classificazione dei telefoni usando le caratteristiche audio.

2025-11-07T21:25:10+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Avanzando l'IA: Comprensione Audio Simile agli Umani

Un nuovo modello migliora la percezione audio e le capacità di ragionamento nell'AI.

2025-11-07T16:33:40+00:00 ― 6 leggere min

Suono Progressi nella Separazione del Parlato con NASS

NASS migliora l'isolamento vocale in ambienti rumorosi, superando i metodi tradizionali.

2025-11-07T15:45:05+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Migliorare le voci sintetiche attraverso il miglioramento audio

Un nuovo modo per migliorare la qualità audio nella creazione di voci sintetiche.

2025-11-07T14:07:55+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nella rilevazione degli eventi sonori con l'apprendimento multi-task

Nuove tecniche migliorano l'efficienza del riconoscimento sonoro e riducono i costi di etichettatura.

2025-11-07T13:19:20+00:00 ― 6 leggere min

Suono Aggiornare le metriche di qualità del suono per una maggiore accuratezza

Migliorare le metriche di qualità del suono usando nuovi metodi di calcolo del volume.

2025-11-07T12:30:45+00:00 ― 5 leggere min

Calcolo e linguaggio Progressi nella Traduzione Vocale in Tempo Reale

AlignAtt migliora la traduzione del discorso simultanea con una velocità e una qualità superiori.

2025-11-07T11:42:10+00:00 ― 5 leggere min

Suono Bilanciare privacy ed efficienza nei modelli di linguaggio

Un nuovo metodo garantisce la privacy nella classificazione del linguaggio senza compromettere le prestazioni.

2025-11-07T10:05:00+00:00 ― 6 leggere min

Suono Adattare gli accenti della sintesi vocale con facilità

Questo studio mostra come adattare la tecnologia TTS a diversi accenti in modo efficiente.

2025-11-07T09:16:25+00:00 ― 5 leggere min

Interazione uomo-macchina Avanzare Agenti Socialmente Interattivi con il Modello AMII

Il modello AMII migliora la comunicazione per agenti socialmente interattivi attraverso un comportamento non verbale migliore.

2025-11-07T08:27:50+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Migliorare il rilevamento del Parkinson con l'apprendimento federato

Usare l'apprendimento federato per migliorare l'analisi vocale nella diagnosi del Parkinson in diverse lingue.

2025-11-07T07:39:15+00:00 ― 6 leggere min

Calcolo e linguaggio Identificare i dialetti arabi con tecniche moderne

Questo studio si concentra sul riconoscimento dei dialetti arabi usando metodi avanzati e dati limitati.

2025-11-07T06:02:05+00:00 ― 4 leggere min

Visione artificiale e riconoscimento di modelli Un Nuovo Modello per l'Elaborazione di Dati Multi-Modali

Presentiamo un modello che integra diversi tipi di dati per compiti complessi.

2025-11-07T05:13:30+00:00 ― 6 leggere min

Suono Progressi nella Rilevazione Sonora Bioacustica

I ricercatori stanno migliorando il modo in cui rileviamo automaticamente i suoni degli animali.

2025-11-07T05:03:27+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Le versatili abilità di riconoscimento vocale di Whisper

Scopri come Whisper si adatta a diversi compiti di parola usando l'ingegneria dei prompt.

2025-11-07T04:24:55+00:00 ― 5 leggere min

Calcolo e linguaggio Migliorare il riconoscimento vocale per le lingue minoritarie

Questo studio esamina modi per migliorare l'ASR per lingue a bassa risorsa usando tecniche di dati.

2025-11-07T01:59:10+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato FastFit: Un Nuovo Approccio alla Generazione del Parlato

FastFit migliora la velocità di generazione del parlato senza perdere qualità del suono.

2025-11-07T00:22:00+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nel riconoscimento delle parole chiave con TACos

Un nuovo metodo migliora il rilevamento delle parole chiave nelle registrazioni audio.

2025-11-06T23:33:25+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Un nuovo metodo per misurare il movimento della lingua nel parlato

Questo studio presenta un metodo per misurare meglio il movimento della lingua durante il parlato usando dati a raggi X.

2025-11-06T21:56:15+00:00 ― 6 leggere min

Suono Sviluppi nella diarizzazione degli speaker con AED-EEND

Il sistema AED-EEND migliora la diarizzazione degli speaker integrando tecniche avanzate per una precisione migliore.

2025-11-06T20:19:05+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Pengi: Collegare Audio e Elaborazione Testi

Pengi unisce comprensione audio e generazione di testo in un unico modello.

2025-11-06T19:30:30+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Ridurre la latenza nel riconoscimento vocale con CTC penalizzato per il ritardo

Un nuovo approccio punta a ridurre al minimo i ritardi nei sistemi di riconoscimento vocale, mantenendo però l'accuratezza.

2025-11-06T17:53:20+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzare nel riconoscimento delle parole chiave con l'apprendimento continuo

Un nuovo metodo migliora i sistemi di riconoscimento delle parole chiave per una migliore performance in audio variabile.

2025-11-06T17:04:45+00:00 ― 5 leggere min

Suono Progressi nella tecnologia Text-to-Speech multilingue

Un nuovo sistema TTS migliora la generazione del parlato in diverse lingue con dati limitati.

2025-11-06T13:50:25+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Diffusione Componibile: Una Nuova Frontiera nella Creazione di Contenuti

CoDi permette di generare contemporaneamente diversi tipi di contenuti da vari input.

2025-11-06T13:01:50+00:00 ― 4 leggere min

Suono Progressi nella separazione del suono usando il deep learning

Nuove tecniche migliorano la separazione del suono dalle mescole Ambisonics per esperienze audio migliori.

2025-11-06T12:13:15+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Sviluppi nelle tecniche di compressione dei modelli vocali

Un nuovo metodo migliora i modelli di linguaggio riducendo al contempo le risorse necessarie.

2025-11-06T11:24:40+00:00 ― 6 leggere min

Suono Sviluppi nel monitoraggio della salute basato sulla parola

Nuovi metodi che usano la voce sembrano promettenti per identificare i modelli respiratori e le condizioni di salute.

2025-11-06T10:36:05+00:00 ― 5 leggere min

Suono MIDI-Draw: Un Nuovo Modo per Creare Melodie

MIDI-Draw permette a chiunque di fare musica disegnando melodie in modo intuitivo.

2025-11-06T09:47:30+00:00 ― 5 leggere min