Informatica - Suono

RSS

Suono GAMA: Un Nuovo Modello per la Comprensione del Suono

GAMA migliora l'elaborazione audio unendo intuizioni su suono e linguaggio.

2025-07-29T04:55:00+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato GigaSpeech 2: Un Nuovo Dataset per il Riconoscimento Vocale

GigaSpeech 2 offre un'enorme raccolta di dati per le lingue a bassa risorsa per migliorare il riconoscimento vocale.

2025-07-29T02:29:15+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Rivoluzionare il Text-to-Speech con DiTTo-TTS

Un nuovo modello migliora la tecnologia da testo a voce con efficienza e adattabilità.

2025-07-29T01:40:40+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Nuovo Framework per una Produzione del Parlato Chiara

Un nuovo metodo per ottimizzare l'analisi e la sintesi del parlato usando i movimenti del tratto vocale.

2025-07-28T20:49:10+00:00 ― 7 leggere min

Interazione uomo-macchina L'impatto dei gesti nelle spiegazioni virtuali

Questo studio esamina come i gesti influenzano l'apprendimento dagli agenti virtuali.

2025-07-28T19:12:00+00:00 ― 7 leggere min

Suono Diarizzazione del Parlante in Tempo Reale: Un'Panoramica

Scopri la diarizzazione degli speaker online e il suo significato in diverse applicazioni.

2025-07-28T06:14:40+00:00 ― 7 leggere min

Suono Valutare i Token Audio Discreti per i Compiti di Parola

Nuovo strumento di benchmark valuta i token audio discreti per vari compiti di elaborazione del parlato.

2025-07-28T04:37:30+00:00 ― 9 leggere min

Suono Sviluppi nella generazione di musica strutturata con SING

Un nuovo metodo per la generazione di musica usando matrici di autosimilarità e sistemi di attenzione.

2025-07-28T01:23:10+00:00 ― 7 leggere min

Suono Avanzamenti nel Modello Audio con GANs

Nuove tecniche migliorano la modellazione degli amplificatori per chitarra usando dati non abbinati e GAN.

2025-07-27T22:08:50+00:00 ― 7 leggere min

Suono Analizzando i modelli audio con la dissezione della rete

Un nuovo metodo per capire come i modelli audio fanno previsioni.

2025-07-27T12:25:50+00:00 ― 5 leggere min

Suono Avanzamento della Conversione Vocale con Consapevolezza Spaziale

Introduzione della conversione vocale spaziale per migliorare il realismo audio e l'immersione.

2025-07-27T01:54:15+00:00 ― 6 leggere min

Calcolo e linguaggio Analizzare il linguaggio per valutare il rischio di suicidio

La ricerca esplora come l'analisi del linguaggio possa prevedere il rischio di suicidio, tenendo conto delle differenze di genere.

2025-07-26T13:45:30+00:00 ― 5 leggere min

Suono Un nuovo strumento per la visualizzazione musicale

Questo documento presenta un sistema per creare immagini che rispondono alla musica.

2025-07-26T10:31:10+00:00 ― 7 leggere min

Robotica Imparare con il Suono: Una Nuova Era per i Robot

Un nuovo sistema aiuta i robot ad apprendere compiti utilizzando audio da dimostrazioni reali.

2025-07-26T09:42:35+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Progressi nella Rilevazione di Eventi Sonori per il 2024

Nuovi metodi migliorano l'accuratezza nel riconoscere suoni sovrapposti da diverse sorgenti audio.

2025-07-26T07:16:50+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare la correzione degli errori di parola nei sistemi ASR

Un nuovo metodo combina caratteristiche acustiche e punteggi di fiducia per una correzione degli errori migliore.

2025-07-25T20:45:15+00:00 ― 5 leggere min

Crittografia e sicurezza Proteggere le Voci nell'Era dei Deepfake

SecureSpectra offre un modo nuovo per proteggere l'identità audio dai rischi dei deepfake.

2025-07-25T16:42:20+00:00 ― 6 leggere min

Apprendimento automatico Sviluppi nella previsione della diffusione acustica con PGI-DeepONet

Combinare fisica e geometria per migliorare le previsioni di scattering acustico.

2025-07-25T15:54:09+00:00 ― 5 leggere min

Calcolo e linguaggio Sviluppi nei Sistemi di Traduzione Vocale in Tempo Reale

Un nuovo sistema per la traduzione rapida e precisa del parlato in diverse lingue.

2025-07-25T15:05:10+00:00 ― 6 leggere min

Suono Nuovo Metodo per la Creazione della Voce nella Sintesi Vocale

Un metodo semplice per creare voci e controllare le emozioni nella sintesi vocale.

2025-07-25T14:16:35+00:00 ― 5 leggere min

Suono Avanzamenti nella separazione delle sorgenti musicali in tempo reale

Migliorare MMDenseNet per una separazione musicale veloce ed efficiente.

2025-07-25T12:39:25+00:00 ― 5 leggere min

Calcolo e linguaggio Sviluppi nei Sistemi di Dialogo Parlati

Un nuovo metodo migliora il dialogo macchina grazie a dati pseudo-stereo.

2025-07-25T08:36:30+00:00 ― 7 leggere min

Calcolo e linguaggio Migliorare il Riconoscimento Vocale Cinese Attraverso la Regolarizzazione del Pinyin

Questo studio presenta un dataset e un metodo per migliorare l'accuratezza dell'ASR cinese usando il Pinyin.

2025-07-25T07:47:55+00:00 ― 7 leggere min

Suono Avanzamento della tecnologia degli altoparlanti e controllo del suono

Tecniche innovative migliorano il design degli altoparlanti e la direzione del suono.

2025-07-25T06:10:45+00:00 ― 5 leggere min

Suono Analizzando le tecniche per rilevare l’audio deepfake

Questo studio si concentra sul miglioramento della rilevazione dell'audio deepfake usando metodi avanzati.

2025-07-25T02:56:25+00:00 ― 5 leggere min

Suono Approcci innovativi alla creazione musicale con la tecnologia

Usare interfacce e modelli visivi per migliorare la generazione musicale.

2025-07-25T00:30:40+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli Approccio Innovativo per la Generazione Automatica di Effetti Sonori

Un nuovo sistema per creare effetti sonori sincronizzati nei video.

2025-07-24T23:42:05+00:00 ― 6 leggere min

Suono Migliorare la diarizzazione dei relatori con gli embeddings vocali

Uno studio per migliorare la segmentazione audio integrando gli embeddings degli speaker.

2025-07-24T21:16:20+00:00 ― 6 leggere min

Suono Un nuovo metodo leggero per la tecnologia di sintesi vocale

Questo articolo presenta un sistema TTS più efficiente che si adatta ai relatori.

2025-07-24T20:27:45+00:00 ― 6 leggere min

Calcolo e linguaggio Tecniche innovative nel riconoscimento vocale per lingue a risorse limitate

Nuovi metodi migliorano i modelli vocali per le lingue con pochi dati.

2025-07-24T19:39:10+00:00 ― 6 leggere min

Suono L'importanza di misurare l'incertezza nel riconoscimento delle emozioni nel parlato

Capire l'incertezza aumenta l'accuratezza del riconoscimento delle emozioni in situazioni reali.

2025-07-24T17:13:25+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Sviluppi nelle Tecniche di Allineamento dei Fonemi

Un nuovo metodo migliora l'accuratezza dell'allineamento dei fonemi per diverse applicazioni vocali.

2025-07-24T10:44:45+00:00 ― 6 leggere min

Calcolo e linguaggio La sfida linguistica di Nollywood: unire i dialetti

Uno studio sulla traduzione dell'inglese nigeriano per una migliore accessibilità nei film di Nollywood.

2025-07-24T04:16:05+00:00 ― 6 leggere min

Calcolo e linguaggio Un nuovo approccio all'apprendimento della rappresentazione del parlato

Quest'articolo presenta un sistema di codifica duale per un apprendimento efficace della rappresentazione vocale.

2025-07-24T01:50:20+00:00 ― 6 leggere min

Suono Avanzando nel trattamento musicale simbolico con MelodyT5

MelodyT5 offre un nuovo modo di creare e analizzare la musica usando notazione simbolica.

2025-07-23T21:47:25+00:00 ― 6 leggere min

Suono Dataset di Musica Sintetica Punta a Migliorare la Classificazione dei Generi

Il dataset GTZAN-synth sfrutta musica sintetica per migliorare i sistemi di tagging musicale.

2025-07-23T17:44:30+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato MelodyLM: Il Futuro della Creazione di Canzoni

MelodyLM semplifica la creazione di musica usando input testuali e vocali.

2025-07-23T16:55:55+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli Presentiamo il modello SAVE per la segmentazione audio-visiva

Il modello SAVE migliora la segmentazione audio-visiva con efficienza e precisione.

2025-07-23T16:07:20+00:00 ― 6 leggere min

Calcolo e linguaggio Avanzamenti nella traduzione da parlato a testo con LLMs

Nuovo modello migliora la traduzione da parlato a testo usando grandi modelli linguistici.

2025-07-23T08:01:30+00:00 ― 7 leggere min

Suono Nuovo modello stima i movimenti della bocca nel parlare

La ricerca presenta un modello che collega le registrazioni sonore ai movimenti della bocca per il parlato.

2025-07-23T07:12:55+00:00 ― 6 leggere min