MuLanTTS di Microsoft offre capacità di sintesi vocale francese naturali ed espressive.
― 5 leggere min
Scienza all'avanguardia spiegata semplicemente
MuLanTTS di Microsoft offre capacità di sintesi vocale francese naturali ed espressive.
― 5 leggere min
Nuovi set di dati e metodi migliorano la classificazione dei veicoli per una gestione del traffico migliore.
― 6 leggere min
Nuovi metodi migliorano l'accuratezza e la velocità nella tecnologia di riconoscimento vocale.
― 6 leggere min
Un nuovo sintetizzatore migliora la generazione di effetti sonori realistici per i media.
― 6 leggere min
Un nuovo approccio aumenta la stima della fiducia nei sistemi ASR per una maggiore precisione.
― 5 leggere min
Introducendo un framework per una sintesi vocale più naturale ed espressiva.
― 6 leggere min
Scopri come la tecnologia aiuta a categorizzare i generi musicali in modo efficiente.
― 6 leggere min
Un approccio unificato per valutare l'alimentazione dei pesci usando dati audio e video.
― 5 leggere min
Un nuovo metodo migliora la creazione di video con teste parlanti emotivamente espressive.
― 7 leggere min
Questo studio esplora i problemi legati all'uso delle convnet per la creazione di filterbank audio.
― 5 leggere min
Il modello CLAP collega l'elaborazione audio e testuale per diverse applicazioni.
― 4 leggere min
Un progetto punta a migliorare l'elaborazione del parlato francese usando l'apprendimento auto-supervisionato.
― 5 leggere min
Nuovi metodi migliorano il modo in cui le macchine riconoscono il ritmo della parola e le emozioni.
― 6 leggere min
Un nuovo approccio migliora la stima del suono in spazi con oggetti che disperdono.
― 6 leggere min
Analizza come l'indecidibilità influisca sulla composizione e produzione musicale oggi.
― 4 leggere min
Questo articolo esplora i progressi nella diarizzazione degli speaker utilizzando modelli di linguaggio per una maggiore precisione.
― 5 leggere min
Questo studio migliora la capacità dei sistemi ASR di riconoscere il parlato dei bambini.
― 6 leggere min
I ricercatori stanno esplorando la tecnologia di rilevamento audio per migliorare il riconoscimento dei pedoni nelle aree urbane.
― 6 leggere min
Nuovo metodo migliora la localizzazione delle sorgenti sonore e la separazione dei campi.
― 6 leggere min
Un nuovo metodo migliora la sintesi del suono della batteria concentrandosi su elementi transitori netti.
― 6 leggere min
I ricercatori stanno sviluppando dati vocali sintetici per proteggere la privacy nel riconoscimento vocale.
― 5 leggere min
VoxtLM combina riconoscimento vocale, sintesi, generazione di testo e continuazione in un unico modello.
― 4 leggere min
Nuovo sistema migliora il riconoscimento vocale usando richieste consapevoli del contesto.
― 4 leggere min
EnCodecMAE combina l'apprendimento auto-supervisionato e i codec audio per migliorare le performance nei compiti audio.
― 5 leggere min
Uno studio sull'uso del machine learning per identificare i suoni dei bambini per la valutazione dell'ASD.
― 5 leggere min
Presentando un metodo flessibile per riconoscere le parole chiave nel parlato in diverse lingue.
― 6 leggere min
Uno sguardo a come si testa la qualità dell'audio usando il crowdsourcing.
― 5 leggere min
Tecniche avanzate per garantire l'autenticità audio nell'era del cloning vocale.
― 5 leggere min
Un nuovo metodo allena sistemi di didascalia audio usando solo descrizioni testuali.
― 6 leggere min
Una guida per scrivere articoli accademici chiari ed efficaci.
― 3 leggere min
Erie semplifica il trasformare i dati in suoni per una migliore accessibilità.
― 7 leggere min
Esaminando i rischi degli attacchi backdoor sui sistemi di verifica vocale.
― 7 leggere min
Un nuovo metodo migliora la segmentazione audio-visiva senza etichette dettagliate.
― 6 leggere min
PIAVE aiuta le macchine a estrarre le voci in modo chiaro, anche quando i parlanti girano la testa.
― 6 leggere min
Libriheavy offre 50.000 ore di inglese parlato per potenziare la tecnologia di riconoscimento vocale.
― 5 leggere min
AV2Wav migliora la qualità del parlato usando segnali audio e visivi.
― 5 leggere min
Un metodo nuovo per far sì che le macchine cambino le emozioni del discorso in modo naturale.
― 5 leggere min
Si stanno sviluppando nuovi metodi per identificare le voci cantanti deepfake nell'industria musicale.
― 6 leggere min
La selezione di core-set migliora i modelli di sintesi vocale concentrandosi su dati diversi.
― 6 leggere min
Nuovi modelli stanno cambiando il modo in cui analizziamo le emozioni nel parlato.
― 6 leggere min