Usando LLM per creare un enorme dataset per la captioning musicale.

2025-10-02T08:29:25+00:00 ― 7 leggere min

Calcolo e linguaggio Sviluppi nella tecnologia per l'allenamento della pronuncia

I ricercatori stanno migliorando l'allenamento sulla pronuncia con nuove tecnologie per chi impara le lingue.

2025-10-02T07:40:50+00:00 ― 5 leggere min

Suono Progresso nella tecnologia di trasferimento dello stile vocale

HierVST trasforma le voci senza sforzo, migliorando la qualità audio senza bisogno di dati estesi.

2025-10-02T05:15:05+00:00 ― 5 leggere min

Multimedia Avanzamenti nella stima dell'engagement per le conversazioni

La ricerca sviluppa un modello per misurare con precisione l'engagement nelle conversazioni.

2025-10-01T21:57:50+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli DAVIS: Un Nuovo Approccio alla Separazione del Suono

DAVIS offre un modo nuovo per affrontare la separazione del suono audio e visivo.

2025-10-01T19:32:05+00:00 ― 5 leggere min

Suono Tecniche Avanzate di Segmentazione Audio-Visiva

Un nuovo metodo migliora l'identificazione precisa degli oggetti che producono suoni nei video.

2025-10-01T13:52:00+00:00 ― 7 leggere min

Suono Progressi nel Text-to-Speech con DiffProsody

DiffProsody migliora la velocità e la qualità della sintesi vocale grazie a una generazione di prosodia innovativa.

2025-10-01T13:03:25+00:00 ― 4 leggere min

Suono Affrontare la guerra della loudness con le reti De-limiter

Una nuova tecnologia punta a ripristinare la qualità della musica persa a causa della compressione del volume.

2025-10-01T02:31:50+00:00 ― 5 leggere min

Suono Sistema automatizzato per identificare l'afasia

Nuovo metodo promette di identificare più velocemente i disturbi del linguaggio come l'afasia.

2025-09-30T21:40:20+00:00 ― 5 leggere min

Crittografia e sicurezza Tecniche sonore inaudibili per la manipolazione del parlato

Un nuovo metodo utilizza suoni ultrasonici per confondere i sistemi di riconoscimento vocale senza essere rilevato.

2025-09-30T19:14:35+00:00 ― 6 leggere min

Calcolo e linguaggio Progressi nella tecnologia Text-to-Speech

Nuovi metodi migliorano la qualità della voce sintetizzata usando l'apprendimento auto-supervisionato.

2025-09-30T17:37:25+00:00 ― 5 leggere min

Calcolo e linguaggio Migliorare il riconoscimento vocale con il potenziamento delle parole chiave

Un nuovo metodo migliora la trascrizione di parole chiave rare nelle conversazioni aziendali.

2025-09-30T10:20:10+00:00 ― 6 leggere min

Suono Avanzare il riconoscimento vocale con l'apprendimento federato

L'apprendimento federato migliora il riconoscimento vocale mantenendo i dati dell'utente privati.

2025-09-30T08:43:00+00:00 ― 6 leggere min

Suono MusicLDM: Un Nuovo Approccio alla Generazione di Musica da Testo

MusicLDM trasforma il testo in musica originale, offrendo nuove strade per la creatività.

2025-09-30T05:28:40+00:00 ― 7 leggere min

Suono Migliorare le tecniche di estrazione della melodia cantata con il deep learning

Nuovi metodi migliorano l'accuratezza nell'estrazione delle melodie cantate da audio misti.

2025-09-30T01:25:45+00:00 ― 7 leggere min

Calcolo e linguaggio Sviluppi nella tecnologia dei sottotitoli audio

Nuovi metodi puntano a migliorare il captioning audio per una maggiore precisione ed efficienza.

2025-09-30T00:25:00+00:00 ― 5 leggere min

Suono Sviluppi nelle tecniche di miglioramento del suono

Nuovo modello migliora la chiarezza del parlato in ambienti rumorosi usando metodi innovativi.

2025-09-29T22:11:25+00:00 ― 5 leggere min

Suono Analizzando le canzoni popolari coreane attraverso la tecnologia

Uno studio sulle canzoni popolari coreane usando metodi analitici moderni.

2025-09-29T21:22:50+00:00 ― 8 leggere min

Grafica DiffDance: Una Nuova Era nella Generazione di Danza

DiffDance crea sequenze di danza dettagliate che si abbinano alla musica in modo efficace.

2025-09-29T16:31:20+00:00 ― 6 leggere min

Suono Affrontare il pregiudizio di genere nella trascrizione della voce cantata

Esaminare l'equità nella tecnologia di trascrizione della voce cantata tra i generi.

2025-09-29T15:42:45+00:00 ― 8 leggere min

Suono Avanzamenti nella personalizzazione delle parole chiave per i sistemi ASR

SeACo-Paraformer porta flessibilità e precisione alla tecnologia di riconoscimento vocale.

2025-09-29T14:05:35+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Esaminare la Qualità della Voce e il Suo Impatto

Questo studio esplora i metodi di classificazione della qualità della voce e il loro significato nella comunicazione.

2025-09-29T12:28:25+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Sviluppi nella tecnologia di controllo attivo del rumore

Scopri come i nuovi algoritmi migliorano le tecniche di cancellazione del rumore per diverse applicazioni.

2025-09-29T05:59:45+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Nuovo strumento misura la qualità audio con insights video

AudioVMAF combina metriche video per una valutazione della qualità audio migliorata.

2025-09-29T01:56:50+00:00 ― 6 leggere min

Suono Avanzamenti nella rilevazione di audio falso con RAWM

Un nuovo metodo migliora la rilevazione di audio falso usando la modifica dei pesi adattivi.

2025-09-29T01:08:15+00:00 ― 6 leggere min

Crittografia e sicurezza La crescente necessità di steganalisi nella sicurezza informatica

La steganalisi aiuta a scoprire messaggi nascosti nei multimedia, garantendo comunicazioni sicure.

2025-09-28T23:31:05+00:00 ― 4 leggere min

Multimedia TranSTYLer: Un Salto nella Comunicazione Virtuale

Trasformare i gesti per agenti virtuali mantenendo il significato.

2025-09-28T18:39:35+00:00 ― 6 leggere min

Suono Progressi nella Localizzazione delle Fonti Sonore con le Reti Neurali

Esplorando come le reti neurali migliorano l'accuratezza della localizzazione delle sorgenti sonore.

2025-09-28T12:10:55+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare il riconoscimento vocale punjabi con metodi di autoformazione

I ricercatori migliorano il riconoscimento vocale automatico per il punjabi usando tecniche di auto-addestramento innovative.

2025-09-28T08:56:35+00:00 ― 6 leggere min

Suono Progressi nel riconoscimento vocale per il parlatore target

Un nuovo modello migliora il riconoscimento vocale in ambienti rumorosi concentrandosi su un singolo parlante.

2025-09-28T08:08:00+00:00 ― 4 leggere min

Suono Bilanciare la privacy e il monitoraggio audio intelligente

Nuovi metodi mirano a proteggere la privacy del parlato nei sistemi di monitoraggio audio.

2025-09-28T06:30:50+00:00 ― 5 leggere min

Calcolo e linguaggio Avanzando la sintesi vocale espressiva con un nuovo dataset

Un nuovo dataset migliora la sintesi vocale catturando l'espressione emotiva senza fare affidamento sul testo.

2025-09-27T18:22:05+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Migliorare la classificazione dell'intonazione musicale con SDTW

Nuove strategie per migliorare la stabilità dell'allenamento nella classificazione delle altezze musicali.

2025-09-27T13:30:35+00:00 ― 6 leggere min

Suono Avanzamenti nella tecnologia di conversione vocale

Phoneme Hallucinator trasforma la conversione vocale con dati limitati per risultati più chiari.

2025-09-27T10:16:15+00:00 ― 5 leggere min

Suono Avanzando la Generazione di Gestures per Umani Digitali

Un nuovo metodo crea gesti realistici a partire da audio vocale grezzo.

2025-09-27T08:39:05+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzare nel riconoscimento vocale bilingue con unità grafiche

Migliorare i sistemi ASR ibridi per il parlato bilingue usando unità grafiche.

2025-09-27T03:47:35+00:00 ― 6 leggere min

Calcolo e linguaggio Progressi nell'apprendimento congiunto di discorso e testo

Un nuovo modello migliora l'allineamento di parlato e testo per una migliore riconoscimento automatico.

2025-09-27T02:10:25+00:00 ― 6 leggere min

Suono Progressi nel riconoscimento visivo del parlato con Lip2Vec

Lip2Vec migliora il riconoscimento visivo del parlato usando meno dati etichettati.

2025-09-27T01:21:50+00:00 ― 7 leggere min

Calcolo e linguaggio Sviluppi nella tecnologia di riconoscimento vocale

Nuovi metodi migliorano l'accuratezza e la velocità nei sistemi di riconoscimento vocale.

2025-09-26T11:35:55+00:00 ― 5 leggere min

Apprendimento automatico O-1: Una Nuova Frontiera nell'Addestramento al Riconoscimento Vocale

O-1 migliora il riconoscimento vocale ottimizzando i metodi di auto-apprendimento.

2025-09-26T09:10:10+00:00 ― 5 leggere min

Informatica - Suono