Un nuovo approccio sfrutta l'apprendimento auto-supervisionato per collegare audio e spartiti.
― 5 leggere min
Scienza all'avanguardia spiegata semplicemente
Un nuovo approccio sfrutta l'apprendimento auto-supervisionato per collegare audio e spartiti.
― 5 leggere min
Un nuovo metodo migliora il matching tra audio e spartiti.
― 6 leggere min
Usare il clustering k-means per ottimizzare i dati audio per un miglior addestramento del modello.
― 5 leggere min
Uno studio mostra che l'augmented audio può migliorare il riconoscimento vocale nelle lingue a bassa risorsa.
― 6 leggere min
Un nuovo approccio migliora l'efficienza nei modelli ASR multilingue integrando tecniche di mascheramento adattivo.
― 5 leggere min
Indagando sull'audio deepfake per migliorare i modelli di trascrizione per lingue meno comuni.
― 8 leggere min
Nuove strategie migliorano l'apprendimento con etichette deboli selezionando esempi negativi rilevanti.
― 6 leggere min
Un nuovo metodo per aggiungere filigrane all'audio creato da modelli di diffusione per proteggere la proprietà.
― 6 leggere min
Nuove tecniche migliorano i sistemi ASR per riconoscere meglio discorsi lunghi.
― 5 leggere min
Nuove tecniche puntano a migliorare l'accuratezza dei dispositivi attivati dalla voce contro gli attacchi.
― 6 leggere min
DurIAN-E migliora il parlato sintetico con un'espressività e un fluire naturale potenziati.
― 4 leggere min
Scopri come SER migliora le interazioni uomo-macchina grazie al rilevamento delle emozioni.
― 6 leggere min
Un metodo per scegliere il miglior modello ASR basato sulle caratteristiche audio.
― 5 leggere min
Scopri come la dereverberazione migliora il riconoscimento vocale in ambienti rumorosi.
― 4 leggere min
Coco-Nut offre diversi campioni vocali giapponesi per applicazioni avanzate di sintesi vocale.
― 10 leggere min
Questo studio presenta un modello basato sull'attenzione per stimare i volumi delle stanze da registrazioni audio.
― 5 leggere min
Il modello ASCA migliora l'accuratezza della classificazione audio per set di dati piccoli.
― 6 leggere min
MyST punta a migliorare l'apprendimento della scienza nei bambini attraverso tutoraggio virtuale.
― 5 leggere min
Lo studio confronta l'accuratezza nella localizzazione del suono tra formati audio a quattro canali e a due canali.
― 6 leggere min
Uno sguardo a M2MeT 2.0 e il suo impatto sulla trascrizione delle riunioni.
― 6 leggere min
Un nuovo metodo di elaborazione audio migliora l'anonimato del parlante mantenendo la chiarezza del discorso.
― 6 leggere min
Questo studio trasforma i dati della risonanza magnetica della lingua in audio vocale reale.
― 4 leggere min
Questo studio analizza come la compressione dei modelli influisce sul riconoscimento vocale in ambienti rumorosi.
― 6 leggere min
Esplora come l'Apprendimento Attivo Online migliori l'efficienza nel riconoscimento dei suoni.
― 6 leggere min
Un nuovo modello migliora la comprensione del parlato e dei suoni contemporaneamente.
― 6 leggere min
Nuova tecnologia migliora la rilevazione della disartria e la classificazione della gravità.
― 5 leggere min
Nuovi metodi migliorano la rilevazione precoce dei problemi vocali usando le caratteristiche della sorgente glottale.
― 5 leggere min
Migliorare i modelli di riconoscimento vocale per capire e adattarsi meglio ai diversi accenti.
― 5 leggere min
DCLS migliora le performance di classificazione audio imparando le posizioni dei kernel durante l'addestramento.
― 5 leggere min
Un nuovo metodo migliora l'apprendimento automatico dei dati audio-visivi.
― 6 leggere min
Introdurre nuovi modelli per estrarre meglio il parlato in ambienti rumorosi.
― 6 leggere min
Un nuovo metodo migliora l'efficienza del riconoscimento vocale usando l'adattamento a basso rango.
― 5 leggere min
Combinare audio, video e testo per valutazioni della salute mentale migliori.
― 6 leggere min
Uno sguardo ai progressi nel riconoscimento vocale per aumentare velocità e precisione.
― 5 leggere min
Migliorare la comunicazione fra medici e pazienti con tecnologie avanzate di riconoscimento vocale.
― 6 leggere min
La Melodia di Synthia aiuta i ricercatori a testare modelli audio su dati diversi.
― 6 leggere min
La ricerca si concentra sul miglioramento dei sistemi ASR per audio non segmentato.
― 5 leggere min
La ricerca si concentra sull'ottimizzazione dei sintetizzatori per le vocalizzazioni umane in diversi media.
― 5 leggere min
Un nuovo metodo migliora la verifica dell'identità del parlante gestendo efficacemente la variabilità delle sessioni.
― 6 leggere min
I LLM migliorano l'accuratezza e la correzione degli errori nei sistemi di riconoscimento vocale.
― 6 leggere min