Ingegneria elettrica e scienze dei sistemi - Elaborazione dell'audio e del parlato

Elaborazione dell'audio e del parlato Progressi nel riconoscimento vocale per i bambini

Questo studio migliora la capacità dei sistemi ASR di riconoscere il parlato dei bambini.

2025-09-14T02:25:50+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Il ruolo dell'audio nella rilevazione dei pedoni

I ricercatori stanno esplorando la tecnologia di rilevamento audio per migliorare il riconoscimento dei pedoni nelle aree urbane.

2025-09-14T00:48:40+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nelle tecniche di registrazione del campo sonoro

Nuovo metodo migliora la localizzazione delle sorgenti sonore e la separazione dei campi.

2025-09-13T20:45:45+00:00 ― 6 leggere min

Suono Avanzamenti nella Sintesi di Suoni Percussivi

Un nuovo metodo migliora la sintesi del suono della batteria concentrandosi su elementi transitori netti.

2025-09-13T19:57:10+00:00 ― 6 leggere min

Suono Creare dataset vocali sintetici a favore della privacy

I ricercatori stanno sviluppando dati vocali sintetici per proteggere la privacy nel riconoscimento vocale.

2025-09-13T15:05:40+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato VoxtLM: Un Approccio Unificato a Voce e Testo

VoxtLM combina riconoscimento vocale, sintesi, generazione di testo e continuazione in un unico modello.

2025-09-13T11:02:45+00:00 ― 4 leggere min

Elaborazione dell'audio e del parlato PromptASR: Tecnologia di riconoscimento vocale di nuova generazione

Nuovo sistema migliora il riconoscimento vocale usando richieste consapevoli del contesto.

2025-09-13T10:14:10+00:00 ― 4 leggere min

Suono Progressi nei modelli di Universal Audio

EnCodecMAE combina l'apprendimento auto-supervisionato e i codec audio per migliorare le performance nei compiti audio.

2025-09-13T09:25:35+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzando la diagnosi dell'autismo attraverso il riconoscimento del suono

Uno studio sull'uso del machine learning per identificare i suoni dei bambini per la valutazione dell'ASD.

2025-09-13T07:48:25+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Un Nuovo Approccio per Riconoscere le Parole Chiave

Presentando un metodo flessibile per riconoscere le parole chiave nel parlato in diverse lingue.

2025-09-13T06:11:15+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Valutare la qualità del suono nella comunicazione audio

Uno sguardo a come si testa la qualità dell'audio usando il crowdsourcing.

2025-09-13T05:22:40+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nel Captioning Audio con Addestramento Solo Testo

Un nuovo metodo allena sistemi di didascalia audio usando solo descrizioni testuali.

2025-09-13T02:56:55+00:00 ― 6 leggere min

Suono Passaggi essenziali per scrivere articoli accademici

Una guida per scrivere articoli accademici chiari ed efficaci.

2025-09-13T01:19:45+00:00 ― 3 leggere min

Crittografia e sicurezza Attacchi Backdoor: Una Minaccia Nascosta per la Verifica Vocale

Esaminando i rischi degli attacchi backdoor sui sistemi di verifica vocale.

2025-09-12T22:54:00+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli Sviluppi nelle Tecniche di Segmentazione Audio-Visiva

Un nuovo metodo migliora la segmentazione audio-visiva senza etichette dettagliate.

2025-09-12T20:28:15+00:00 ― 6 leggere min

Suono Nuovo sistema migliora l'estrazione della voce da posizioni della testa instabili

PIAVE aiuta le macchine a estrarre le voci in modo chiaro, anche quando i parlanti girano la testa.

2025-09-12T19:39:40+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Libriheavy: Un Nuovo Dataset per il Riconoscimento Vocale

Libriheavy offre 50.000 ore di inglese parlato per potenziare la tecnologia di riconoscimento vocale.

2025-09-12T18:51:05+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Migliorare la chiarezza del parlato con la tecnologia AV2Wav

AV2Wav migliora la qualità del parlato usando segnali audio e visivi.

2025-09-12T17:13:55+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato EmoConv-Diff: Un Nuovo Modo per Cambiare le Emozioni nel Parlare

Un metodo nuovo per far sì che le macchine cambino le emozioni del discorso in modo naturale.

2025-09-12T16:25:20+00:00 ― 5 leggere min

Suono Rilevare Voci Cantate Generate da AI

Si stanno sviluppando nuovi metodi per identificare le voci cantanti deepfake nell'industria musicale.

2025-09-12T14:48:10+00:00 ― 6 leggere min

Suono Ottimizzare il Text-to-Speech con la selezione del Core-Set

La selezione di core-set migliora i modelli di sintesi vocale concentrandosi su dati diversi.

2025-09-12T08:19:30+00:00 ― 6 leggere min

Suono Sviluppi nei sistemi di riconoscimento delle emozioni nella voce

Nuovi modelli stanno cambiando il modo in cui analizziamo le emozioni nel parlato.

2025-09-12T07:30:55+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Riconoscimento delle azioni con tecnologia a ultrasuoni orientato alla privacy

Un nuovo metodo usa l'ultrasuono per riconoscere le azioni garantendo la privacy.

2025-09-12T06:42:20+00:00 ― 5 leggere min

Suono Un nuovo sistema per l'anonimizzazione degli speaker

Introducendo un framework flessibile per migliorare la ricerca sulla privacy vocale.

2025-09-12T05:05:10+00:00 ― 7 leggere min

Suono CiwaGAN: Un Nuovo Modello per l'Apprendimento del Parlato

CiwaGAN unisce il controllo dei movimenti del parlato e la condivisione delle informazioni per migliorare l'apprendimento del linguaggio.

2025-09-12T04:16:35+00:00 ― 6 leggere min

Calcolo e linguaggio IntraVerbalPA: Un Nuovo Approccio alla Valutazione della Pronuncia

Un sistema che combina segnali verbali e non verbali per migliorare l'apprendimento delle lingue.

2025-09-12T03:28:00+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare le spiegazioni per i modelli di parlato

Un nuovo metodo semplifica la comprensione dei modelli di classificazione del parlato.

2025-09-12T02:39:25+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare l'apprendimento delle lingue con L1-MultiMDD

Un nuovo sistema migliora le abilità di pronuncia tenendo conto delle influenze della lingua madre.

2025-09-12T01:50:50+00:00 ― 6 leggere min

Tecnologie emergenti Il calcolo quantistico incontra la composizione musicale

Scopri come gli strumenti quantistici cambiano la creazione e la performance musicale.

2025-09-12T00:31:30+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Sviluppi nella tecnologia di conversione vocale

Un nuovo metodo migliora la preservazione delle emozioni nei processi di conversione vocale.

2025-09-12T00:13:40+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Emo-StarGAN: Avanzando la tecnologia di conversione vocale

Nuovo metodo conserva il tono emotivo nella conversione della voce per una migliore interazione uomo-computer.

2025-09-11T23:25:05+00:00 ― 6 leggere min

Calcolo e linguaggio Sviluppi nella traduzione diretta da testo a voce

Nuovi sistemi migliorano la traduzione da testo a linguaggio parlato senza intermediari.

2025-09-11T20:59:20+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Migliorare la classificazione dei suoni cardiaci con l'augmentazione dei dati

I ricercatori migliorano l'accuratezza nella classificazione dei suoni cardiaci usando metodi di aumento dei dati con codec.

2025-09-11T19:22:10+00:00 ― 6 leggere min

Suono Le sfide emotive mettono alla prova i modelli di separazione del parlato

Le ricerche mostrano che il discorso emotivo influisce sulle performance dei modelli nei compiti di separazione del parlato.

2025-09-11T18:33:35+00:00 ― 7 leggere min

Suono M-AUDIODEC: Un nuovo modo per comprimere l'audio

M-AUDIODEC comprime l'audio multicanale mantenendo la posizione degli altoparlanti e la qualità.

2025-09-11T16:56:25+00:00 ― 6 leggere min

Suono Progressi nella tecnologia di traduzione da parola a parola

Nuovi metodi in S2ST migliorano la qualità della traduzione mantenendo l'identità del parlante.

2025-09-11T16:07:50+00:00 ― 6 leggere min

Suono Avanzare nella Compressione Audio con Tecniche Neurali

Un nuovo sistema migliora la compressione audio spaziale per un suono più chiaro e un'efficienza maggiore.

2025-09-11T15:19:15+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato MusiLingo: Unire Musica e Lingua

Un nuovo sistema che collega musica e lingua per una comprensione migliore.

2025-09-11T14:30:40+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Migliorare la qualità del suono negli auricolari

La ricerca svela nuovi modelli per migliorare la chiarezza della voce negli auricolari smart.

2025-09-11T12:04:55+00:00 ― 5 leggere min

Suono Migliorare il riconoscimento dei suoni degli uccelli con i metadati

Usare informazioni extra ci aiuta a riconoscere i canti degli uccelli.

2025-09-11T11:16:20+00:00 ― 6 leggere min