MuLanTTS di Microsoft offre capacità di sintesi vocale francese naturali ed espressive.

2025-09-15T22:57:55+00:00 ― 5 leggere min

Suono Progressi nella tecnologia di monitoraggio acustico del traffico

Nuovi set di dati e metodi migliorano la classificazione dei veicoli per una gestione del traffico migliore.

2025-09-15T13:14:55+00:00 ― 6 leggere min

Suono Sviluppi nei sistemi di riconoscimento vocale automatico

Nuovi metodi migliorano l'accuratezza e la velocità nella tecnologia di riconoscimento vocale.

2025-09-15T06:46:15+00:00 ― 6 leggere min

Suono Avanzamenti nella sintesi del suono Foley con il machine learning

Un nuovo sintetizzatore migliora la generazione di effetti sonori realistici per i media.

2025-09-15T05:57:40+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Avanzare nella stima della fiducia nel riconoscimento vocale automatico

Un nuovo approccio aumenta la stima della fiducia nei sistemi ASR per una maggiore precisione.

2025-09-15T03:14:28+00:00 ― 5 leggere min

Suono Sviluppi nella tecnologia di generazione vocale

Introducendo un framework per una sintesi vocale più naturale ed espressiva.

2025-09-15T01:06:10+00:00 ― 6 leggere min

Suono Classificare i generi musicali con la tecnologia

Scopri come la tecnologia aiuta a categorizzare i generi musicali in modo efficiente.

2025-09-14T21:51:50+00:00 ― 6 leggere min

Suono Nuovo modello migliora la valutazione dell'intensità di alimentazione dei pesci

Un approccio unificato per valutare l'alimentazione dei pesci usando dati audio e video.

2025-09-14T21:03:15+00:00 ― 5 leggere min

Suono Sviluppi nella tecnologia dei volti parlanti emotivi

Un nuovo metodo migliora la creazione di video con teste parlanti emotivamente espressive.

2025-09-14T15:23:10+00:00 ― 7 leggere min

Apprendimento automatico Sfide nell'uso dei Convnets per la progettazione di filtri audio

Questo studio esplora i problemi legati all'uso delle convnet per la creazione di filterbank audio.

2025-09-14T14:34:35+00:00 ― 5 leggere min

Suono Sviluppi nei modelli audio e linguistici

Il modello CLAP collega l'elaborazione audio e testuale per diverse applicazioni.

2025-09-14T13:46:00+00:00 ― 4 leggere min

Calcolo e linguaggio Progressi nell'Apprendimento Auto-Supervisionato per le Tecnologie Vocali Francesi

Un progetto punta a migliorare l'elaborazione del parlato francese usando l'apprendimento auto-supervisionato.

2025-09-14T12:57:25+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Sviluppi nell'Annotazione Automatica della Prosodia

Nuovi metodi migliorano il modo in cui le macchine riconoscono il ritmo della parola e le emozioni.

2025-09-14T12:08:50+00:00 ― 6 leggere min

Suono Nuovo Metodo per la Stima del Suono in Ambienti Dispersi

Un nuovo approccio migliora la stima del suono in spazi con oggetti che disperdono.

2025-09-14T06:28:45+00:00 ― 6 leggere min

Suono L'impatto dell'indecidibilità sulla produzione musicale

Analizza come l'indecidibilità influisca sulla composizione e produzione musicale oggi.

2025-09-14T05:40:10+00:00 ― 4 leggere min

Elaborazione dell'audio e del parlato Migliorare la Diarizzazione dei Parlanti con Modelli Linguistici

Questo articolo esplora i progressi nella diarizzazione degli speaker utilizzando modelli di linguaggio per una maggiore precisione.

2025-09-14T03:14:25+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Progressi nel riconoscimento vocale per i bambini

Questo studio migliora la capacità dei sistemi ASR di riconoscere il parlato dei bambini.

2025-09-14T02:25:50+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Il ruolo dell'audio nella rilevazione dei pedoni

I ricercatori stanno esplorando la tecnologia di rilevamento audio per migliorare il riconoscimento dei pedoni nelle aree urbane.

2025-09-14T00:48:40+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nelle tecniche di registrazione del campo sonoro

Nuovo metodo migliora la localizzazione delle sorgenti sonore e la separazione dei campi.

2025-09-13T20:45:45+00:00 ― 6 leggere min

Suono Avanzamenti nella Sintesi di Suoni Percussivi

Un nuovo metodo migliora la sintesi del suono della batteria concentrandosi su elementi transitori netti.

2025-09-13T19:57:10+00:00 ― 6 leggere min

Suono Creare dataset vocali sintetici a favore della privacy

I ricercatori stanno sviluppando dati vocali sintetici per proteggere la privacy nel riconoscimento vocale.

2025-09-13T15:05:40+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato VoxtLM: Un Approccio Unificato a Voce e Testo

VoxtLM combina riconoscimento vocale, sintesi, generazione di testo e continuazione in un unico modello.

2025-09-13T11:02:45+00:00 ― 4 leggere min

Elaborazione dell'audio e del parlato PromptASR: Tecnologia di riconoscimento vocale di nuova generazione

Nuovo sistema migliora il riconoscimento vocale usando richieste consapevoli del contesto.

2025-09-13T10:14:10+00:00 ― 4 leggere min

Suono Progressi nei modelli di Universal Audio

EnCodecMAE combina l'apprendimento auto-supervisionato e i codec audio per migliorare le performance nei compiti audio.

2025-09-13T09:25:35+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzando la diagnosi dell'autismo attraverso il riconoscimento del suono

Uno studio sull'uso del machine learning per identificare i suoni dei bambini per la valutazione dell'ASD.

2025-09-13T07:48:25+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Un Nuovo Approccio per Riconoscere le Parole Chiave

Presentando un metodo flessibile per riconoscere le parole chiave nel parlato in diverse lingue.

2025-09-13T06:11:15+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Valutare la qualità del suono nella comunicazione audio

Uno sguardo a come si testa la qualità dell'audio usando il crowdsourcing.

2025-09-13T05:22:40+00:00 ― 5 leggere min

Suono Nuovi metodi per rilevare audio generato da IA

Tecniche avanzate per garantire l'autenticità audio nell'era del cloning vocale.

2025-09-13T03:40:24+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nel Captioning Audio con Addestramento Solo Testo

Un nuovo metodo allena sistemi di didascalia audio usando solo descrizioni testuali.

2025-09-13T02:56:55+00:00 ― 6 leggere min

Suono Passaggi essenziali per scrivere articoli accademici

Una guida per scrivere articoli accademici chiari ed efficaci.

2025-09-13T01:19:45+00:00 ― 3 leggere min

Interazione uomo-macchina Erie: Un Nuovo Strumento per la Sonificazione dei Dati

Erie semplifica il trasformare i dati in suoni per una migliore accessibilità.

2025-09-13T00:22:54+00:00 ― 7 leggere min

Crittografia e sicurezza Attacchi Backdoor: Una Minaccia Nascosta per la Verifica Vocale

Esaminando i rischi degli attacchi backdoor sui sistemi di verifica vocale.

2025-09-12T22:54:00+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli Sviluppi nelle Tecniche di Segmentazione Audio-Visiva

Un nuovo metodo migliora la segmentazione audio-visiva senza etichette dettagliate.

2025-09-12T20:28:15+00:00 ― 6 leggere min

Suono Nuovo sistema migliora l'estrazione della voce da posizioni della testa instabili

PIAVE aiuta le macchine a estrarre le voci in modo chiaro, anche quando i parlanti girano la testa.

2025-09-12T19:39:40+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Libriheavy: Un Nuovo Dataset per il Riconoscimento Vocale

Libriheavy offre 50.000 ore di inglese parlato per potenziare la tecnologia di riconoscimento vocale.

2025-09-12T18:51:05+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Migliorare la chiarezza del parlato con la tecnologia AV2Wav

AV2Wav migliora la qualità del parlato usando segnali audio e visivi.

2025-09-12T17:13:55+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato EmoConv-Diff: Un Nuovo Modo per Cambiare le Emozioni nel Parlare

Un metodo nuovo per far sì che le macchine cambino le emozioni del discorso in modo naturale.

2025-09-12T16:25:20+00:00 ― 5 leggere min

Suono Rilevare Voci Cantate Generate da AI

Si stanno sviluppando nuovi metodi per identificare le voci cantanti deepfake nell'industria musicale.

2025-09-12T14:48:10+00:00 ― 6 leggere min

Suono Ottimizzare il Text-to-Speech con la selezione del Core-Set

La selezione di core-set migliora i modelli di sintesi vocale concentrandosi su dati diversi.

2025-09-12T08:19:30+00:00 ― 6 leggere min

Suono Sviluppi nei sistemi di riconoscimento delle emozioni nella voce

Nuovi modelli stanno cambiando il modo in cui analizziamo le emozioni nel parlato.

2025-09-12T07:30:55+00:00 ― 6 leggere min

Informatica - Suono