Informatica - Suono

RSS

Suono Progressi nella Rilevazione Sonora Bioacustica

I ricercatori stanno migliorando il modo in cui rileviamo automaticamente i suoni degli animali.

2025-11-07T05:03:27+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Le versatili abilità di riconoscimento vocale di Whisper

Scopri come Whisper si adatta a diversi compiti di parola usando l'ingegneria dei prompt.

2025-11-07T04:24:55+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato FastFit: Un Nuovo Approccio alla Generazione del Parlato

FastFit migliora la velocità di generazione del parlato senza perdere qualità del suono.

2025-11-07T00:22:00+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nel riconoscimento delle parole chiave con TACos

Un nuovo metodo migliora il rilevamento delle parole chiave nelle registrazioni audio.

2025-11-06T23:33:25+00:00 ― 5 leggere min

Suono Sviluppi nella diarizzazione degli speaker con AED-EEND

Il sistema AED-EEND migliora la diarizzazione degli speaker integrando tecniche avanzate per una precisione migliore.

2025-11-06T20:19:05+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Pengi: Collegare Audio e Elaborazione Testi

Pengi unisce comprensione audio e generazione di testo in un unico modello.

2025-11-06T19:30:30+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Avanzare nel riconoscimento delle parole chiave con l'apprendimento continuo

Un nuovo metodo migliora i sistemi di riconoscimento delle parole chiave per una migliore performance in audio variabile.

2025-11-06T17:04:45+00:00 ― 5 leggere min

Suono Progressi nella tecnologia Text-to-Speech multilingue

Un nuovo sistema TTS migliora la generazione del parlato in diverse lingue con dati limitati.

2025-11-06T13:50:25+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Diffusione Componibile: Una Nuova Frontiera nella Creazione di Contenuti

CoDi permette di generare contemporaneamente diversi tipi di contenuti da vari input.

2025-11-06T13:01:50+00:00 ― 4 leggere min

Suono Progressi nella separazione del suono usando il deep learning

Nuove tecniche migliorano la separazione del suono dalle mescole Ambisonics per esperienze audio migliori.

2025-11-06T12:13:15+00:00 ― 7 leggere min

Suono Sviluppi nel monitoraggio della salute basato sulla parola

Nuovi metodi che usano la voce sembrano promettenti per identificare i modelli respiratori e le condizioni di salute.

2025-11-06T10:36:05+00:00 ― 5 leggere min

Suono MIDI-Draw: Un Nuovo Modo per Creare Melodie

MIDI-Draw permette a chiunque di fare musica disegnando melodie in modo intuitivo.

2025-11-06T09:47:30+00:00 ― 5 leggere min

Suono Metodi innovativi per valutare la qualità audio

Nuove tecniche che prendono in prestito dall'elaborazione delle immagini migliorano la valutazione della qualità audio.

2025-11-06T08:58:55+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Innovazioni nella elaborazione del parlato con dati visivi

Nuovi metodi migliorano la comprensione del parlato da parte delle macchine utilizzando segnali audio e visivi.

2025-11-06T07:21:45+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Sviluppi nel riconoscimento delle parole chiave in ambienti rumorosi

Nuovo modello migliora il riconoscimento delle parole chiave in situazioni acustiche difficili.

2025-11-06T04:07:25+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare la comprensione del parlato con la distillazione della conoscenza

Un nuovo metodo migliora i modelli di parlato trasferendo conoscenza dai modelli di testo.

2025-11-06T01:41:40+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Coswara Dataset: Strumento Innovativo per la Rilevazione del COVID-19

Una raccolta di suoni respiratori aiuta a identificare i casi di COVID-19.

2025-11-06T00:12:57+00:00 ― 4 leggere min

Suono ACA-Net: Avanzando i Sistemi di Verifica dell'Identità Vocale

Un nuovo modello migliora la verifica dell'identità dell'altoparlante con tecniche efficienti.

2025-11-05T23:15:55+00:00 ― 5 leggere min

Suono Avanzamenti nei Sistemi di Riconoscimento Vocale per la Sfida VoxCeleb

Uno sguardo dettagliato alle tecniche di riconoscimento vocale sviluppate per la competizione del 2022.

2025-11-05T21:38:45+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Migliorare la comprensione del linguaggio e delle emozioni da parte dell'AI

Un nuovo approccio addestra l'IA a riconoscere meglio il parlato e le emozioni in ambienti rumorosi.

2025-11-05T17:35:50+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Analisi Audio Innovativa per l'Interazione Familiare

Nuovi metodi puntano a migliorare la comprensione delle dinamiche familiari e della salute mentale dei bambini.

2025-11-05T16:47:15+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Sviluppi nei Sistemi di Protezione degli Altoparlanti

Nuovi metodi di deep learning migliorano le previsioni sul movimento del diaframma del parlante.

2025-11-05T16:10:24+00:00 ― 5 leggere min

Calcolo e linguaggio Sfruttare ciwGAN per l'analisi fonologica

Esplorare come ciwGAN possa imparare e rappresentare caratteristiche fonologiche come la nasalità.

2025-11-05T15:10:05+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nel riconoscimento vocale con MH-SSM

Un nuovo modello migliora l'efficienza e l'accuratezza del riconoscimento vocale.

2025-11-05T14:21:30+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzare nel riconoscimento vocale con intuizioni contestuali

Un nuovo metodo migliora la precisione del riconoscimento vocale usando informazioni contestuali.

2025-11-05T13:32:55+00:00 ― 6 leggere min

Suono Simulando Discorso Rumoroso per una Migliore Riconoscenza

I ricercatori usano i GAN per generare discorsi rumorosi da audio pulito, migliorando i modelli di parlato.

2025-11-05T12:44:20+00:00 ― 6 leggere min

Suono Presentiamo il Corpus JNV: una nuova raccolta di vocalizzazioni non verbali giapponesi

Il corpus JNV cattura suoni emotivi diversi in giapponese, arricchendo le collezioni esistenti.

2025-11-05T11:55:45+00:00 ― 6 leggere min

Suono Sviluppi nella Sintesi del Risata Realistica

Nuovi metodi migliorano la generazione della risata per interazioni realistiche tra umani e computer.

2025-11-05T11:07:10+00:00 ― 5 leggere min

Suono Rilevare la voce sintetica: sfide e soluzioni

Uno sguardo su come individuare l'audio fake nel mondo tech di oggi.

2025-11-05T10:18:35+00:00 ― 4 leggere min

Suono Sviluppi nel Riconoscimento delle Emozioni Vocali con LGFA

Un nuovo metodo migliora il rilevamento delle emozioni nel parlato grazie a tecniche avanzate di transformer.

2025-11-05T10:09:24+00:00 ― 5 leggere min

Calcolo e linguaggio Avanzando i modelli di linguaggio attraverso la conoscenza testuale

Usare modelli di testo per migliorare la generazione del parlato per una comprensione migliore.

2025-11-05T09:30:00+00:00 ― 8 leggere min

Apprendimento automatico Avanzando l'apprendimento multi-modale con C-MCR

C-MCR semplifica l'apprendimento multi-modale collegando in modo efficiente le conoscenze esistenti.

2025-11-05T03:49:55+00:00 ― 6 leggere min

Suono FluentSpeech: Un Nuovo Approccio per Eliminare il Difetto di Pronuncia

FluentSpeech offre una soluzione automatica per rendere l'editing del discorso più fluido.

2025-11-05T02:12:45+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Adattamento Dominio Modulare: Un Nuovo Approccio al Riconoscimento Vocale

MDA migliora il riconoscimento vocale ottimizzando i modelli per aree di dati specifiche.

2025-11-05T01:24:10+00:00 ― 6 leggere min

Fisica medica Nuovo studio collega segnali cerebrali al movimento della lingua

La ricerca mostra che i segnali cerebrali possono aiutare a prevedere i movimenti della lingua durante il parlare.

2025-11-04T23:54:21+00:00 ― 6 leggere min

Suono Progressi nella tecnologia Text-to-Speech con U-DiT

Il sistema TTS U-DiT migliora la generazione del parlato naturale grazie a un'architettura innovativa.

2025-11-04T23:47:00+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Migliorare il riconoscimento vocale per tutti i parlanti

Un nuovo metodo punta a migliorare i sistemi ASR per i parlanti con disartria.

2025-11-04T22:58:25+00:00 ― 5 leggere min

Calcolo e linguaggio Migliorare la Diarizzazione del Parlante Usando l'Analisi delle Parole

Migliorare l'identificazione degli speaker combinando suoni e parole parlate nell'audio.

2025-11-04T18:55:30+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Adattare i gesti per gli agenti virtuali

Gli agenti virtuali imparano a imitare i gesti umani per interagire meglio.

2025-11-04T18:06:55+00:00 ― 7 leggere min

Suono Semplificare la Sintesi Sonora con NAS-FM

Un nuovo metodo per creare sintetizzatori che avvantaggia i musicisti.

2025-11-04T17:18:20+00:00 ― 6 leggere min