Il compositore usa dei prompt testuali per creare composizioni musicali complesse in formato MIDI.
― 6 leggere min
Scienza all'avanguardia spiegata semplicemente
Il compositore usa dei prompt testuali per creare composizioni musicali complesse in formato MIDI.
― 6 leggere min
Una risorsa per studiare i modelli vocali nella musica idol giapponese.
― 6 leggere min
ViolinDiff migliora il realismo della musica per violino generata al computer.
― 5 leggere min
Combinare le caratteristiche migliora l'accuratezza nella classificazione dei suoni sott'acqua.
― 6 leggere min
Il transfer learning migliora la classificazione audio per la rilevazione dei suoni sottomarini.
― 6 leggere min
Un nuovo modello crea audio che si abbina al video, migliorando le esperienze media.
― 5 leggere min
Un metodo per potenziare il riconoscimento automatico del parlato mescolando liste di parole chiave con modelli linguistici.
― 5 leggere min
Uno studio sulle tecniche di imitazione vocale usando la tecnologia per migliorare la comunicazione.
― 5 leggere min
Scopri come allenare efficacemente modelli di linguaggio con meno risorse etichettate.
― 7 leggere min
Un'analisi della terminologia di genere nella tecnologia vocale e le sue implicazioni sociali.
― 7 leggere min
Un nuovo framework migliora la rilevazione di eventi sonori sovrapposti in ambienti audio complessi.
― 6 leggere min
Ricerche per migliorare l'identificazione dei suoni degli uccelli tramite tecniche di machine learning.
― 7 leggere min
Un nuovo metodo migliora la creazione automatica di cover per pianoforte usando la tecnologia di trascrizione musicale esistente.
― 7 leggere min
Uno sguardo ai risultati della sfida Codec-SUPERB e ai metodi di misurazione delle performance del codec.
― 5 leggere min
Il progetto MultiMed migliora il riconoscimento vocale automatico per una comunicazione sanitaria migliore.
― 6 leggere min
Un modo nuovo per valutare la qualità audio senza bisogno di riferimenti puliti.
― 6 leggere min
Il framework ECHO migliora l'accuratezza della classificazione del suono usando etichette strutturate e un processo di apprendimento in due fasi.
― 5 leggere min
Nuovo metodo migliora la chiarezza del parlato integrando informazioni visive.
― 5 leggere min
Un nuovo approccio migliora la stima della direzione del suono per relatori in movimento in situazioni difficili.
― 8 leggere min
Il recupero di momenti audio permette di individuare momenti specifici in registrazioni lunghe.
― 5 leggere min
Safe Guard rileva discorsi d'odio in tempo reale durante le interazioni vocali nella VR sociale.
― 6 leggere min
L'IA sta evolvendo per avere conversazioni più naturali.
― 6 leggere min
Un approccio nuovo usa la risonanza magnetica in tempo reale per visualizzare i movimenti della produzione del parlato.
― 6 leggere min
Un nuovo metodo per rilevare le prime riflessioni in una stanza migliora l'esperienza audio.
― 7 leggere min
Un progetto che sviluppa dataset di parlato e testo per lingue con risorse limitate.
― 5 leggere min
Un nuovo framework migliora il riconoscimento vocale e si adatta a vari compiti di parlato.
― 4 leggere min
Sono necessari nuovi metodi per rilevare le tecnologie di sintesi vocale deepfake avanzate.
― 6 leggere min
Nuovi metodi aumentano l'accuratezza nell'identificare i suoni degli animali da dati limitati.
― 5 leggere min
Nuovo metodo migliora l'integrazione del suono virtuale negli ambienti AR.
― 6 leggere min
Un nuovo metodo punta a preservare la privacy della voce mentre consente una comunicazione efficace.
― 5 leggere min
Nuovi metodi migliorano il riconoscimento vocale per lingue a bassa risorsa senza testo.
― 5 leggere min
Nuovi metodi migliorano l'accuratezza nei sistemi di riconoscimento vocale usando la comprensione fonetica.
― 6 leggere min
Questo framework migliora le animazioni in tempo reale sincronizzando alla perfezione il parlato e i gesti.
― 5 leggere min
Nuove caratteristiche acustiche migliorano le prestazioni dei sistemi ASR in ambienti rumorosi.
― 5 leggere min
Una nuova funzione di perdita migliora la qualità audio allineando fase e ampiezza.
― 6 leggere min
Un nuovo modello TTS aggiunge profondità emotiva alla voce generata dal computer.
― 6 leggere min
Valutare i modelli di riconoscimento vocale per le sessioni di diagnosi dell'autismo.
― 6 leggere min
Metodi recenti migliorano la chiarezza e la qualità audio usando modelli avanzati.
― 6 leggere min
Un nuovo approccio migliora il rilevamento delle registrazioni audio false.
― 5 leggere min
ESPnet-Codec migliora l'addestramento e la valutazione dei codec neurali per audio e parlato.
― 7 leggere min