Scopri come gli embedding Matryoshka migliorano l'efficienza e la flessibilità nel riconoscimento vocale.

2025-06-02T20:40:50+00:00 ― 5 leggere min

Suono NanoVoice: Portare avanti la tecnologia personalizzata di sintesi vocale

Ti presento NanoVoice, un modello di sintesi vocale veloce ed efficiente per audio personalizzato.

2025-06-02T19:52:15+00:00 ― 5 leggere min

Suono Sviluppi nell'adattamento del testo in voce

Il nuovo modello VoiceGuider migliora il TTS per relatori diversi.

2025-06-02T19:03:40+00:00 ― 6 leggere min

Suono Sviluppi nella conversione vocale multilingue

Un metodo innovativo per convertire voci tra lingue mantenendo caratteristiche uniche.

2025-06-02T15:49:20+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Progressi nel trasferimento di stile da testo a voce

Nuove tecniche migliorano la qualità della voce espressiva tra diversi oratori.

2025-06-02T15:00:45+00:00 ― 6 leggere min

Suono Migliorare la classificazione della musica con metriche percettive

Questo articolo esplora il ruolo delle metriche percettive nella classificazione dei generi musicali.

2025-06-02T12:35:00+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzare nell'apprendimento multi-task nei modelli di parlato

Un nuovo metodo migliora l'elaborazione del parlato e dell'audio in diversi compiti.

2025-06-02T10:57:50+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Migliorare la diarizzazione degli speaker nelle riunioni

Un nuovo sistema migliora l'identificazione degli oratori durante le discussioni con più partecipanti.

2025-06-02T06:54:55+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Sviluppi nella tecnologia di sintesi vocale emotiva

Un nuovo framework migliora l'espressione emotiva nei sistemi TTS.

2025-06-02T02:52:00+00:00 ― 6 leggere min

Suono Sensori di Pressione: Un Nuovo Rischio di Sospetto

Scoperte recenti rivelano che i sensori di pressione possono essere usati per intercettare.

2025-06-01T13:54:40+00:00 ― 4 leggere min

Suono Avanzamenti nella Rilevazione degli Eventi Sonori con PMAM

Un nuovo algoritmo migliora il riconoscimento degli eventi sonori usando l'apprendimento auto-supervisionato.

2025-06-01T10:40:20+00:00 ― 5 leggere min

Suono Affrontare la sfida della rilevazione del parlato falso

La ricerca si concentra sul miglioramento dei metodi per rilevare il discorso falso realistico.

2025-06-01T09:51:45+00:00 ― 5 leggere min

Apprendimento automatico Progresso nelle tecniche di generazione audio-video

Un nuovo metodo semplifica la creazione di audio e video per una sincronizzazione migliore.

2025-06-01T08:14:35+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Text2FX: Semplificare gli Effetti Audio con il Linguaggio

Controlla gli effetti audio usando descrizioni semplici per fare aggiustamenti più facili al suono.

2025-06-01T00:08:45+00:00 ― 6 leggere min

Suono Avanzando nel processamento multi-audio con MALLM

Presentiamo un nuovo modello e benchmark per valutare i compiti multi-audio.

2025-05-31T19:17:15+00:00 ― 6 leggere min

Suono Animare emozioni per teste parlanti realistiche

Un nuovo sistema modella l'intensità emotiva nei personaggi animati per un realismo migliore.

2025-05-31T16:51:30+00:00 ― 6 leggere min

Suono OpenSep: Avanzando nella tecnologia di separazione audio

OpenSep automatizza la separazione audio per esperienze sonore più chiare senza bisogno di input manuali.

2025-05-31T07:15:34+00:00 ― 6 leggere min

Suono PALM: Un Nuovo Approccio al Riconoscimento Audio

PALM migliora il riconoscimento audio ottimizzando la rappresentazione dei prompt e l'efficienza.

2025-05-31T01:54:50+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Capire i pickup della chitarra: numero di giri e calibro

Esplora come le curve e il calibro dei fili influenzano il suono dei pickup delle chitarre.

2025-05-31T00:34:39+00:00 ― 8 leggere min

Elaborazione dell'audio e del parlato Progressi nella tecnologia di riconoscimento vocale

Un nuovo metodo migliora il riconoscimento vocale per registrazioni lunghe.

2025-05-30T21:54:17+00:00 ― 5 leggere min

Suono Integrazione di dati audio-visivi per l'elaborazione del parlato

Questo studio analizza come audio, video e testo lavorano insieme nel riconoscimento vocale.

2025-05-30T15:13:22+00:00 ― 7 leggere min

Calcolo e linguaggio Avanzando il Text-to-Speech con un nuovo modello di intonazione

Un nuovo modello migliora la naturalezza nei sistemi di sintesi vocale analizzando i modelli di intonazione.

2025-05-30T01:51:32+00:00 ― 5 leggere min

Calcolo e linguaggio Avanzare la tecnologia vocale per le lingue africane

Un nuovo modello migliora la rappresentazione del parlato per le lingue africane, aumentando l'inclusività nella tecnologia.

2025-05-29T21:50:59+00:00 ― 5 leggere min

Suono Generazione di Musica AI Guidata dalla Melodia

Un nuovo modello migliora la creazione musicale usando melodie e descrizioni testuali.

2025-05-29T20:30:48+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Progressi nei modelli di linguaggio parlato senza bisogno di tanti dati di addestramento

Nuovo metodo per i modelli di linguaggio parla riduce la necessità di dati estesi.

2025-05-29T17:50:26+00:00 ― 6 leggere min

Suono Cambiamento di Voce: Il Processo di Conversione della Voce

Scopri come funziona la conversione vocale e le sue applicazioni interessanti.

2025-05-29T13:49:53+00:00 ― 4 leggere min

Multimedia Valutare la qualità dei multimedia con CCI

Scopri come CCI migliora le valutazioni della qualità multimediale.

2025-05-29T12:29:42+00:00 ― 6 leggere min

Multimedia La Nuova Era della Rilevazione delle Bugie

I ricercatori uniscono segnali audio e visivi per rilevare le bugie in modo più preciso.

2025-05-29T11:09:31+00:00 ― 6 leggere min

Interazione uomo-macchina Sistema di Comunicazione Innovativo per la Risposta ai Disastri

Una nuova rete basata sulla voce colma le lacune linguistiche nelle emergenze.

2025-05-29T09:49:20+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Progressi nella rilevazione vocale diretta da dispositivi

Scopri come gli assistenti virtuali capiscono meglio i comandi degli utenti.

2025-05-29T05:48:47+00:00 ― 6 leggere min

Suono Rivoluzionare il sottotitolaggio audio con MACE

MACE migliora la didascalia audio collegando i suoni a descrizioni testuali accurate.

2025-05-28T17:47:08+00:00 ― 5 leggere min

Suono Prevedere il successo delle cover musicali con il machine learning

Usare il machine learning per prevedere la reazione del pubblico ai cover delle canzoni.

2025-05-28T15:06:46+00:00 ― 7 leggere min

Suono Migliorare la classificazione audio con la perdita ADD

Un nuovo modo per migliorare la classificazione attraverso la Distribuzione della Distanza Angolare.

2025-05-28T13:46:35+00:00 ― 6 leggere min

Calcolo e linguaggio Sviluppi nel Riconoscimento Vocale per Persone con Disabilità

Nuovi metodi migliorano gli strumenti di comunicazione per le persone con difficoltà nel parlare.

2025-05-28T11:06:13+00:00 ― 7 leggere min

Suono Stimare le pose umane usando le onde sonore

I ricercatori usano le onde sonore per stimare le posizioni umane senza telecamere.

2025-05-27T23:13:12+00:00 ― 8 leggere min

Elaborazione dell'audio e del parlato Migliorare il riconoscimento dei suoni in ambienti rumorosi

Nuovi metodi che usano modelli di linguaggio migliorano il riconoscimento dei suoni in mezzo al rumore di fondo.

2025-05-27T03:01:49+00:00 ― 6 leggere min

Suono Fish-Speech: Una Nuova Era nel Testo in Voce

Fish-Speech migliora la tecnologia vocale per un'esperienza di comunicazione più naturale.

2025-05-27T01:41:38+00:00 ― 6 leggere min

Suono EmoSphere++: Una Nuova Era nelle Macchine Emozionali

EmoSphere++ permette alle macchine di esprimere emozioni come gli esseri umani, migliorando le interazioni.

2025-05-26T05:38:53+00:00 ― 7 leggere min

Suono Nuovo metodo per la stima dei confini sottomarini

U-COTANS migliora il rilevamento dei confini subacquei usando tecniche di deep learning.

2025-05-26T02:58:31+00:00 ― 6 leggere min

Suono Presentiamo PIAST: Un Nuovo Dataset per la Ricerca sulla Musica per Pianoforte

PIAST offre una collezione unica di musica per pianoforte per i ricercatori.

2025-05-26T01:38:20+00:00 ― 5 leggere min

Informatica - Suono