Ingegneria elettrica e scienze dei sistemi - Elaborazione dell'audio e del parlato

RSS

Calcolo e linguaggio Migliorare il riconoscimento vocale in aula con un preaddestramento continuo

Il riconoscimento vocale migliorato per le aule usando tecniche di allenamento avanzate rende l'apprendimento migliore.

2025-08-05T19:06:15+00:00 ― 7 leggere min

Apprendimento automatico Affrontare le allucinazioni nei modelli di intelligenza artificiale

Capire e mitigare le allucinazioni nell'AI per performance affidabili.

2025-08-05T17:29:05+00:00 ― 8 leggere min

Suono Nuovo metodo usa grafi per l'analisi musicale

Un nuovo approccio utilizza reti neurali convoluzionali grafiche per un'analisi efficiente dei dati musicali.

2025-08-05T15:51:55+00:00 ― 9 leggere min

Elaborazione dell'audio e del parlato Sviluppi nelle tecniche di abbinamento audio-testo

Nuovi metodi migliorano le connessioni tra clip audio e descrizioni testuali.

2025-08-05T14:14:45+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Migliorare la trascrizione della voce cantata con il modello ROSVOT

ROSVOT migliora l'accuratezza nella trascrizione delle voci cantate, anche in ambienti rumorosi.

2025-08-05T10:11:50+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Migliorare la chiarezza della voce in ambienti rumorosi

Nuove tecniche migliorano la ricostruzione vocale in ambienti difficili usando dati limitati.

2025-08-05T02:06:00+00:00 ― 8 leggere min

Visione artificiale e riconoscimento di modelli Un nuovo approccio alla generazione di contenuti audiovisivi

Presentiamo un modello che genera audio e video sincronizzati con livelli di rumore misti.

2025-08-04T14:45:50+00:00 ― 6 leggere min

Interazione uomo-macchina Comunicazione Avanzata dei Robot: Soluzione per il Parlato Sovrapposto

Un nuovo sistema migliora le interazioni tra robot filtrando il discorso sovrapposto.

2025-08-04T13:57:15+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Un Modello Semplice per la Generazione Audio-Visiva

Questo articolo parla di un nuovo modello semplice per generare audio dalle immagini e viceversa.

2025-08-04T09:05:45+00:00 ― 5 leggere min

Apprendimento automatico Sviluppi nel Riconoscimento Automático della Voce con Modelli Linguistici di Denoising

I modelli linguistici denoising migliorano la correzione degli errori nei sistemi di riconoscimento vocale usando dati sintetici.

2025-08-03T22:34:10+00:00 ― 8 leggere min

Elaborazione dell'audio e del parlato Progressi nel miglioramento del parlato con VPIDM

Il nuovo modello VPIDM migliora la chiarezza della voce in ambienti rumorosi.

2025-08-03T16:54:05+00:00 ― 6 leggere min

Suono NeRAF: Unire Suoni e Immagini per Realismo

NeRAF crea suoni e visual che si sincronizzano per esperienze immersive in vari campi.

2025-08-03T07:11:05+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Approccio innovativo per la generazione congiunta di audio e video

Un nuovo metodo migliora l'allineamento audio-video usando modelli già addestrati.

2025-08-03T04:45:20+00:00 ― 6 leggere min

Apprendimento automatico Zipper: Un Nuovo Approccio all'Intelligenza Artificiale Multimodale

Zipper combina in modo efficace diversi tipi di dati per modelli di intelligenza artificiale più intelligenti.

2025-08-03T03:08:10+00:00 ― 6 leggere min

Suono Migliorare il monitoraggio dei giunti bullonati con il deep learning

Usare il deep learning per migliorare il monitoraggio delle emissioni acustiche delle giunture bullonate.

2025-08-02T21:28:05+00:00 ― 8 leggere min

Visione artificiale e riconoscimento di modelli Unire Suono e Movimento nella Musica

Un nuovo modo per unire canto e danza grazie a tecniche informatiche avanzate.

2025-08-02T20:39:30+00:00 ― 6 leggere min

Suono Sviluppi nelle Tecniche di Inpainting del Parlato

Scopri come il speech inpainting sta riportando a nuovo l'audio in vari settori.

2025-08-02T18:13:45+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Ridurre il rumore di fondo per un discorso più chiaro

Un nuovo sistema migliora la chiarezza del parlato in ambienti con più persone che parlano.

2025-08-02T14:10:50+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Progressi nella tecnologia di riconoscimento delle emozioni nella voce

Nuovi metodi migliorano il modo in cui le macchine riconoscono le emozioni nel parlato.

2025-08-02T13:22:15+00:00 ― 6 leggere min

Suono Avanzamenti nella generazione da video a audio con Frieren

Il modello Frieren migliora la qualità audio e la sincronizzazione per i video.

2025-08-02T10:07:55+00:00 ― 6 leggere min

Suono Sintesi audio innovativa da descrizioni testuali

Un nuovo metodo genera suoni unici partendo dal testo usando un sintetizzatore semplice.

2025-08-02T08:30:45+00:00 ― 8 leggere min

Calcolo e linguaggio Progressi nella tecnologia di traduzione vocale

Un nuovo metodo migliora la traduzione del parlato in ambienti rumorosi mantenendo l'espressività.

2025-08-01T13:53:20+00:00 ― 4 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nell'identificazione delle Raga con un nuovo dataset

Un nuovo dataset migliora lo studio dell'identificazione dei Raga nella musica indiana.

2025-08-01T12:16:10+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nella tecnologia Text-to-Speech

Seed-TTS crea una voce realistica partendo dal testo per vari usi.

2025-08-01T10:39:00+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nella tecnologia da parlato a canto

Nuovo metodo migliora la conversione da parlato a canto usando l'apprendimento auto-supervisionato.

2025-08-01T09:50:25+00:00 ― 7 leggere min

Calcolo e linguaggio StreamSpeech: Un Nuovo Modo di Tradurre il Parlato

StreamSpeech migliora la traduzione del parlato in tempo reale con efficienza e qualità.

2025-08-01T03:21:45+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Introducendo il Modello 4D nel Riconoscimento Vocale

Un nuovo modello migliora il riconoscimento vocale usando più metodi di decodifica.

2025-08-01T01:44:35+00:00 ― 7 leggere min

Calcolo e linguaggio Migliorare il riconoscimento vocale arabo tramite la distillazione della conoscenza

Uno studio su come migliorare il riconoscimento vocale automatico per i dialetti arabi usando tecniche di modelli efficienti.

2025-07-31T23:18:50+00:00 ― 5 leggere min

Calcolo e linguaggio BLSP-Emo: Un Nuovo Passo nell'AI Empatica

Presentiamo BLSP-Emo, un modello che capisce il parlato e le emozioni per interazioni migliori.

2025-07-31T21:41:40+00:00 ― 5 leggere min

Interazione uomo-macchina Rivisitare l'Interpretazione dei Dati: Studio di Suoni e Immagini

Un recente studio ripete risultati chiave sull'interpretazione dei dati usando suoni e immagini.

2025-07-31T20:04:30+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Combinare Testo e Immagini per la Generazione Musicale

Il nuovo modello genera musica usando sia informazioni testuali che visive.

2025-07-31T12:47:15+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli DenseAV: Collegare Suoni e Immagini

Un sistema che collega i suoni con le immagini, migliorando la comprensione delle macchine.

2025-07-31T10:21:30+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nella sintesi vocale con ARDiT

Il nuovo modello ARDiT migliora la sintesi testo-voce e l'editing vocale.

2025-07-31T07:55:45+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Miglioramenti nelle Tecniche di Separazione del Parlato

Nuovi metodi migliorano la chiarezza nell'isolamento delle voci da mix audio.

2025-07-31T04:41:25+00:00 ― 4 leggere min

Calcolo e linguaggio Migliorare la comprensione dell'IA tramite l'analisi contestuale

Ehi, ti presento SPICE, un progetto per migliorare le interazioni dell'IA usando informazioni contestuali.

2025-07-30T23:49:55+00:00 ― 8 leggere min

Suono Advancements in Cross-Modal Music Processing

La ricerca introduce il dataset MOSA, migliorando la comprensione degli aspetti visivi e uditivi della musica.

2025-07-30T23:01:20+00:00 ― 7 leggere min

Calcolo e linguaggio Presentiamo mHuBERT-147: Un Modello di Voce Compatto

mHuBERT-147 elabora il parlato in più lingue in modo efficiente.

2025-07-30T22:12:45+00:00 ― 5 leggere min

Suono Trasformare la didascalia audio tramite metodi innovativi

Un nuovo approccio alla captioning audio riduce la dipendenza dai dati abbinati.

2025-07-30T21:24:10+00:00 ― 6 leggere min

Suono Sviluppi nel Riconoscimento delle Emozioni Tramite il Parlare

Nuovi metodi migliorano il modo in cui le macchine riconoscono le emozioni nel linguaggio umano.

2025-07-30T18:09:50+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nella tecnologia di diarizzazione del parlato target

Uno sguardo ai nuovi metodi per capire il parlato sovrapposto durante le conversazioni.

2025-07-30T14:06:55+00:00 ― 8 leggere min