La ricerca mostra come rendere i modelli di linguaggio più piccoli ed efficienti.

2025-06-29T16:24:35+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Migliorare la Chiarezza nell'Audio: Tecniche di Separazione dei Dialoghi

La separazione dei dialoghi aiuta gli spettatori a sentire chiaramente le conversazioni in mezzo al rumore di fondo.

2025-06-29T11:33:05+00:00 ― 6 leggere min

Suono Progresso nella Rilevazione di Eventi Sonori con MAT-SED

MAT-SED usa un nuovo modello Transformer per una rilevazione efficace degli eventi sonori.

2025-06-29T09:55:55+00:00 ― 5 leggere min

Suono Un nuovo approccio alla diagnosi dei suoni cardiaci

Combinare i suoni cardiaci e l'ecocardiografia per migliorare la diagnosi delle malattie cardiache congénite.

2025-06-29T09:07:20+00:00 ― 6 leggere min

Suono GAPS: Una nuova risorsa per la ricerca sulla chitarra classica

Un ricco set di dati di registrazioni di chitarra collegate a spartiti musicali per ricerca e analisi.

2025-06-29T07:30:10+00:00 ― 4 leggere min

Interazione uomo-macchina Migliorare la localizzazione del suono in XR con Auptimize

Auptimize migliora il posizionamento degli segnali audio per un'interazione utente migliore in XR.

2025-06-29T04:15:50+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Malacopula: Una Nuova Minaccia ai Sistemi di Verifica Vocale

Malacopula mette in dubbio l'affidabilità delle tecnologie di verifica automatica degli speaker.

2025-06-29T03:27:15+00:00 ― 6 leggere min

Grafica MetaFace: Avanzando le animazioni di facce parlate in 3D

Un nuovo metodo per animazioni facciali 3D più realistiche che si adattano agli stili di parlato personali.

2025-06-28T19:21:25+00:00 ― 5 leggere min

Suono Migliorare il riconoscimento delle parole chiave con l'addestramento avversario

L'addestramento avversariale migliora l'accuratezza del riconoscimento delle parole chiave nel parlato sintetico e reale.

2025-06-28T13:41:20+00:00 ― 5 leggere min

Suono Progressi nel Few-Shot Learning per l'elaborazione audio

Questo pezzo parla del few-shot learning e del suo impatto sui task audio.

2025-06-28T12:04:10+00:00 ― 7 leggere min

Suono Trasformare la comunicazione: Conversione vocale basata sul viso

Una nuova tecnologia collega i tratti del viso alla voce, aiutando la comunicazione per chi non può parlare.

2025-06-28T06:24:05+00:00 ― 5 leggere min

Apprendimento automatico Avanzamenti nell'apprendimento compositivo audio

Un nuovo metodo migliora la separazione e generazione audio senza dati etichettati.

2025-06-28T05:35:30+00:00 ― 6 leggere min

Suono ASVspoof Challenge: Sviluppi nell'autenticazione vocale

Affrontare le sfide dell'audio falso e della verifica dell'oratore.

2025-06-28T00:44:00+00:00 ― 5 leggere min

Suono Classificare la rage music: un approccio di machine learning

Analizzare le caratteristiche della musica rage attraverso il machine learning per una migliore classificazione dei generi.

2025-06-27T20:41:05+00:00 ― 5 leggere min

Suono L'ascesa dell'audio falsificato e le sfide nella rilevazione

I falsi audio sono un problema serio; metodi di rilevamento efficaci sono essenziali.

2025-06-27T19:52:30+00:00 ― 6 leggere min

Suono Migliorare il rilevamento di audio falso con la quantizzazione dei colori

Un nuovo metodo migliora l'accuratezza nel rilevare audio sintetico.

2025-06-27T19:03:55+00:00 ― 6 leggere min

Suono DisMix: Trasformare la Manipolazione Musicale

Un nuovo metodo per separare e manipolare suoni musicali.

2025-06-27T17:26:45+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Progressi nella tecnologia di sintesi vocale con SSL-TTS

SSL-TTS semplifica la sintesi vocale usando pochi dati di addestramento per risultati di alta qualità.

2025-06-27T15:49:35+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare il riconoscimento vocale multilingue senza dati originali

Nuovi metodi migliorano i modelli ASR per più lingue, preservando le conoscenze passate.

2025-06-27T15:01:00+00:00 ― 5 leggere min

Calcolo e linguaggio Migliorare il riconoscimento vocale bilingue con XCB

Un nuovo approccio migliora il riconoscimento delle frasi con cambio di codice nel linguaggio bilingue.

2025-06-27T11:46:40+00:00 ― 6 leggere min

Suono Video-Foley: Trasformare il Suono nel Design Multimediale

Un sistema innovativo automatizza la generazione di suoni per film e giochi.

2025-06-26T23:37:55+00:00 ― 8 leggere min

Suono Sviluppi nella tecnologia di verifica vocale

Nuovi metodi migliorano il riconoscimento vocale in ambienti rumorosi.

2025-06-26T18:46:25+00:00 ― 5 leggere min

Suono Progressi nella tecnologia di conversione vocale zero-shot

Il nuovo modello migliora la conversione vocale, specialmente per il parlato sussurrato e le applicazioni in tempo reale.

2025-06-26T17:57:50+00:00 ― 6 leggere min

Suono Uno sguardo nuovo sulla modellazione degli amplificatori per chitarra

Esplorando un nuovo approccio digitale alla modellazione del suono degli amplificatori per chitarra.

2025-06-26T16:20:40+00:00 ― 5 leggere min

Suono GaMaDHaNi: Un Nuovo Sistema per le Melodie Hindustani

Presentiamo un sistema rivoluzionario per generare musica vocale hindustani.

2025-06-26T11:29:10+00:00 ― 7 leggere min

Suono Sviluppi nei modelli di compressori di gamma dinamica con reti neurali

Un nuovo metodo per modellare con precisione i compressori ottici usando reti neurali.

2025-06-26T10:40:35+00:00 ― 8 leggere min

Interazione uomo-macchina WhisperMask: Un Cambiamento Epocale nella Comunicazione Vocale

WhisperMask cattura la voce chiaramente nei posti rumorosi, migliorando la comunicazione.

2025-06-26T09:03:25+00:00 ― 6 leggere min

Suono Progressi nella Valutazione della Qualità Vocale Utilizzando la Tecnologia

Nuovi metodi migliorano le valutazioni della qualità della voce per i pazienti con problemi al sistema vocale.

2025-06-26T07:26:15+00:00 ― 6 leggere min

Interazione uomo-macchina VoiceX: Una Nuova Era nella Creazione Vocale

VoiceX semplifica il processo di creazione di voci personalizzate per diverse applicazioni.

2025-06-26T05:49:05+00:00 ― 5 leggere min

Calcolo e linguaggio Il Ruolo della Prosodia e della Pragmatica nella Tecnologia del Parlato

Esaminando come i modelli vocali influenzano il significato e le prestazioni della tecnologia.

2025-06-25T21:43:15+00:00 ― 5 leggere min

Suono Presentiamo NEST: Un Nuovo Modello per l'Elaborazione del Parlato

NEST offre un approccio più veloce ed efficiente per i compiti di riconoscimento vocale self-supervised.

2025-06-25T20:06:05+00:00 ― 6 leggere min

Multimedia Ripensare i benchmark per la localizzazione delle fonti audio-visive

I benchmark attuali non valutano bene la capacità dei modelli di collegare dati audio e visivi.

2025-06-25T16:03:10+00:00 ― 6 leggere min

Suono Progressi nel Riconoscimento delle Emozioni Vocali con Wav2Small

Wav2Small migliora il riconoscimento delle emozioni nel parlato con minori esigenze di risorse.

2025-06-25T10:23:05+00:00 ― 5 leggere min

Suono Sfide nel Rilevare Segnali Vocali Parzialmente Falsi

Uno sguardo alle complessità dell'identificazione delle tracce audio miste.

2025-06-25T06:20:10+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Comprendere i dialetti della lingua tamil

Una panoramica dei ricchi dialetti del Tamil e dei metodi di identificazione.

2025-06-25T04:43:00+00:00 ― 5 leggere min

Suono Framework innovativo per il rilevamento dei suoni delle macchine

Un nuovo modo per rilevare problemi delle macchine senza compromettere la privacy dei dati.

2025-06-24T16:34:15+00:00 ― 6 leggere min

Suono VoiceTailor: Personalizzare la tecnologia di sintesi vocale

VoiceTailor trasforma i sistemi TTS per output vocali personali e super efficienti.

2025-06-24T15:45:40+00:00 ― 5 leggere min

Suono Capire la stima del campo sonoro: un approccio pratico

Scopri come il suono si diffonde negli spazi e le sue applicazioni.

2025-06-24T14:57:05+00:00 ― 7 leggere min

Suono StyleSpeech: Il Futuro della Tecnologia Text-to-Speech

StyleSpeech migliora i sistemi TTS catturando le sfumature del linguaggio naturale.

2025-06-24T14:08:30+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Progressi nelle tecniche di riduzione del rumore usando il deep learning

Esplorare metodi per migliorare la chiarezza del parlato in ambienti rumorosi tramite deep learning.

2025-06-24T12:31:20+00:00 ― 6 leggere min

Informatica - Suono