DurIAN-E migliora il parlato sintetico con un'espressività e un fluire naturale potenziati.
― 4 leggere min
Scienza all'avanguardia spiegata semplicemente
DurIAN-E migliora il parlato sintetico con un'espressività e un fluire naturale potenziati.
― 4 leggere min
Scopri come SER migliora le interazioni uomo-macchina grazie al rilevamento delle emozioni.
― 6 leggere min
Un metodo per scegliere il miglior modello ASR basato sulle caratteristiche audio.
― 5 leggere min
Scopri come la dereverberazione migliora il riconoscimento vocale in ambienti rumorosi.
― 4 leggere min
Coco-Nut offre diversi campioni vocali giapponesi per applicazioni avanzate di sintesi vocale.
― 10 leggere min
Questo studio presenta un modello basato sull'attenzione per stimare i volumi delle stanze da registrazioni audio.
― 5 leggere min
Il modello ASCA migliora l'accuratezza della classificazione audio per set di dati piccoli.
― 6 leggere min
MyST punta a migliorare l'apprendimento della scienza nei bambini attraverso tutoraggio virtuale.
― 5 leggere min
Lo studio confronta l'accuratezza nella localizzazione del suono tra formati audio a quattro canali e a due canali.
― 6 leggere min
Uno sguardo a M2MeT 2.0 e il suo impatto sulla trascrizione delle riunioni.
― 6 leggere min
Un nuovo metodo di elaborazione audio migliora l'anonimato del parlante mantenendo la chiarezza del discorso.
― 6 leggere min
Questo studio trasforma i dati della risonanza magnetica della lingua in audio vocale reale.
― 4 leggere min
Questo studio analizza come la compressione dei modelli influisce sul riconoscimento vocale in ambienti rumorosi.
― 6 leggere min
Esplora come l'Apprendimento Attivo Online migliori l'efficienza nel riconoscimento dei suoni.
― 6 leggere min
Un nuovo modello migliora la comprensione del parlato e dei suoni contemporaneamente.
― 6 leggere min
Nuova tecnologia migliora la rilevazione della disartria e la classificazione della gravità.
― 5 leggere min
Nuovi metodi migliorano la rilevazione precoce dei problemi vocali usando le caratteristiche della sorgente glottale.
― 5 leggere min
Migliorare i modelli di riconoscimento vocale per capire e adattarsi meglio ai diversi accenti.
― 5 leggere min
DCLS migliora le performance di classificazione audio imparando le posizioni dei kernel durante l'addestramento.
― 5 leggere min
Un nuovo metodo migliora l'apprendimento automatico dei dati audio-visivi.
― 6 leggere min
Introdurre nuovi modelli per estrarre meglio il parlato in ambienti rumorosi.
― 6 leggere min
Un nuovo metodo migliora l'efficienza del riconoscimento vocale usando l'adattamento a basso rango.
― 5 leggere min
Combinare audio, video e testo per valutazioni della salute mentale migliori.
― 6 leggere min
Uno sguardo ai progressi nel riconoscimento vocale per aumentare velocità e precisione.
― 5 leggere min
Migliorare la comunicazione fra medici e pazienti con tecnologie avanzate di riconoscimento vocale.
― 6 leggere min
La Melodia di Synthia aiuta i ricercatori a testare modelli audio su dati diversi.
― 6 leggere min
La ricerca si concentra sul miglioramento dei sistemi ASR per audio non segmentato.
― 5 leggere min
La ricerca si concentra sull'ottimizzazione dei sintetizzatori per le vocalizzazioni umane in diversi media.
― 5 leggere min
Un nuovo metodo migliora la verifica dell'identità del parlante gestendo efficacemente la variabilità delle sessioni.
― 6 leggere min
I LLM migliorano l'accuratezza e la correzione degli errori nei sistemi di riconoscimento vocale.
― 6 leggere min
Un nuovo metodo migliora il riconoscimento dei suoni e la localizzazione delle fonti senza etichette.
― 6 leggere min
Un nuovo punto di riferimento per migliorare la precisione dell'ASR usando modelli di linguaggio.
― 6 leggere min
Nuovi metodi migliorano la traduzione del parlato concentrandosi sulle informazioni contestuali.
― 5 leggere min
Un nuovo metodo migliora il riconoscimento vocale per gli utenti che alternano tra lingue.
― 5 leggere min
Scopri come l'analisi del suono aiuta a identificare i problemi delle macchine in modo efficiente.
― 6 leggere min
Questo progetto migliora i sistemi di traduzione vocale in tempo reale e di sottotitolazione automatica.
― 4 leggere min
Esplorando come la nitidezza dei minimi influisca sulle prestazioni del modello su dati audio non visti.
― 5 leggere min
Nuovo metodo migliora la verifica dell'identità degli speaker unendo dati audio e visivi.
― 5 leggere min
Uno studio sull'uso dei transformer per un tagging e una rappresentazione musicale efficace.
― 7 leggere min
Un nuovo metodo migliora il tracciamento degli speaker usando dati audio e visivi.
― 7 leggere min