Questo articolo parla di soluzioni per le applicazioni vocali in lingue con dati trascritti limitati.
― 6 leggere min
Scienza all'avanguardia spiegata semplicemente
Questo articolo parla di soluzioni per le applicazioni vocali in lingue con dati trascritti limitati.
― 6 leggere min
I ricercatori combinano metodi generativi e discriminativi per migliorare la classificazione del suono.
― 6 leggere min
Un nuovo modello migliora la sicurezza dell'identificazione vocale e resiste al spoofing vocale.
― 6 leggere min
Uno sguardo all'Attenzione Adattiva Gaussiana per migliorare le prestazioni dell'IA.
― 7 leggere min
La ricerca mostra che il deep learning migliora la nostra comprensione del ritmo della lingua.
― 6 leggere min
CoAVT integra dati audio, visivi e testuali per una comprensione migliore.
― 8 leggere min
E-SHARC migliora l'identificazione degli speaker in vari ambienti audio.
― 6 leggere min
Un nuovo sistema genera musica pensata per esprimere felicità e tristezza.
― 6 leggere min
Esaminando i pericoli e le preoccupazioni etiche della generazione di parole sintetiche.
― 6 leggere min
Una guida per capire la somiglianza musicale nei modelli generativi.
― 9 leggere min
Uno studio sulla sintesi del suono e la sua valutazione in ambienti controllati.
― 5 leggere min
Un nuovo metodo migliora la precisione nel localizzare fonti sonore in movimento usando array di microfoni.
― 6 leggere min
PAM offre un modo nuovo per misurare la qualità audio senza bisogno di registrazioni di riferimento.
― 6 leggere min
Un metodo migliora la chiarezza del parlato in ambienti rumorosi senza dati di addestramento chiari.
― 6 leggere min
Audio Flamingo è super nel ascoltare, chiacchierare e adattarsi a nuove task audio.
― 6 leggere min
Un nuovo modello migliora la comprensione del suono spaziale da parte delle macchine.
― 5 leggere min
Un nuovo modello migliora l'efficienza del riconoscimento vocale in tempo reale.
― 6 leggere min
Nuovi metodi migliorano l'ASR per le lingue poco rappresentate usando dati da lingue simili.
― 6 leggere min
Questo studio valuta i suoni rispetto alle parole nella ricostruzione degli alberi genealogici delle lingue.
― 6 leggere min
Nuovo modello migliora la creazione musicale usando il feedback degli utenti.
― 8 leggere min
Reborn offre soluzioni innovative per il riconoscimento automatico della voce senza dati etichettati.
― 6 leggere min
Un nuovo strumento aiuta gli utenti a modificare i suoni facilmente attraverso semplici istruzioni testuali.
― 8 leggere min
Un nuovo modello unisce il linguaggio parlato e scritto per migliorare la comunicazione.
― 6 leggere min
Uno sguardo ai nuovi modelli per risposte parlate naturali.
― 6 leggere min
Un nuovo metodo integra informazioni acustiche nei modelli linguistici per una migliore riconoscimento vocale.
― 9 leggere min
Usare la musica per spiegare il cancro può migliorare la comprensione e il coinvolgimento.
― 7 leggere min
Scopri come la localizzazione del suono identifica la fonte dei suoni usando tecniche avanzate.
― 4 leggere min
Un nuovo modo per sintetizzare voci con un'accuratezza del ritmo migliorata.
― 9 leggere min
I LLM migliorano la precisione nelle trascrizioni mediche, avvantaggiando la cura dei pazienti.
― 7 leggere min
Un metodo per migliorare l'estrazione delle melodie in diversi stili musicali con il minimo sforzo umano.
― 8 leggere min
Nuovi metodi migliorano il rilevamento dell'attività vocale e delle sovrapposizioni nella diarizzazione degli oratori.
― 7 leggere min
Nuovo metodo integra segnali vocali per migliorare la rilevazione della depressione.
― 4 leggere min
Questo articolo parla di metodi per creare campi sonori immersivi utilizzando vari arrangiamenti.
― 5 leggere min
Un nuovo metodo riduce il suono metallico indesiderato nella riverberazione audio.
― 5 leggere min
Chirp MFCC migliora la rappresentazione del segnale audio per una classificazione e riconoscimento migliori.
― 5 leggere min
Tecniche innovative per migliorare i modelli TTS e ridurre la perdita di conoscenza.
― 6 leggere min
Il progetto EMO-SUPERB migliora il riconoscimento delle emozioni nel parlato grazie a tecniche avanzate e alla collaborazione della comunità.
― 7 leggere min
Un nuovo framework migliora i modelli linguistici riconoscendo e rispondendo a diversi stili di linguaggio.
― 8 leggere min
Un nuovo sistema per valutare le prestazioni dei codec audio in diverse applicazioni.
― 7 leggere min
Questo studio esamina come la dimensione del batch influisce sulle prestazioni e sull'addestramento dei modelli di linguaggio.
― 7 leggere min