DurIAN-E migliora il parlato sintetico con un'espressività e un fluire naturale potenziati.

2025-09-06T00:54:25+00:00 ― 4 leggere min

Elaborazione dell'audio e del parlato Sviluppi nella tecnologia di riconoscimento delle emozioni vocali

Scopri come SER migliora le interazioni uomo-macchina grazie al rilevamento delle emozioni.

2025-09-06T00:05:50+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Selezione Efficiente del Modello per il Riconoscimento Vocale

Un metodo per scegliere il miglior modello ASR basato sulle caratteristiche audio.

2025-09-05T23:17:15+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Migliorare la chiarezza del discorso con tecniche di dereverberazione

Scopri come la dereverberazione migliora il riconoscimento vocale in ambienti rumorosi.

2025-09-05T12:45:40+00:00 ― 4 leggere min

Suono Presentiamo Coco-Nut: un database vocale completo per il TTS

Coco-Nut offre diversi campioni vocali giapponesi per applicazioni avanzate di sintesi vocale.

2025-09-05T11:57:05+00:00 ― 10 leggere min

Elaborazione dell'audio e del parlato Nuovo Metodo per la Stima del Volume delle Stanze Usando Modelli di Attenzione

Questo studio presenta un modello basato sull'attenzione per stimare i volumi delle stanze da registrazioni audio.

2025-09-05T11:08:30+00:00 ― 5 leggere min

Suono Presentiamo ASCA: Un Nuovo Approccio alla Classificazione Audio

Il modello ASCA migliora l'accuratezza della classificazione audio per set di dati piccoli.

2025-09-05T10:19:55+00:00 ― 6 leggere min

Calcolo e linguaggio Il mio progetto di tutoraggio di scienze: un nuovo modo di imparare

MyST punta a migliorare l'apprendimento della scienza nei bambini attraverso tutoraggio virtuale.

2025-09-05T09:31:20+00:00 ― 5 leggere min

Suono Valutare la localizzazione degli eventi sonori con diverse configurazioni audio

Lo studio confronta l'accuratezza nella localizzazione del suono tra formati audio a quattro canali e a due canali.

2025-09-05T08:42:45+00:00 ― 6 leggere min

Suono Sviluppi nella tecnologia di trascrizione delle riunioni

Uno sguardo a M2MeT 2.0 e il suo impatto sulla trascrizione delle riunioni.

2025-09-05T03:51:15+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nell'Anonimizzazione degli Speaker usando Codec Audio Neurali

Un nuovo metodo di elaborazione audio migliora l'anonimato del parlante mantenendo la chiarezza del discorso.

2025-09-05T01:25:30+00:00 ― 6 leggere min

Suono Trasformare i movimenti della lingua in suoni parla

Questo studio trasforma i dati della risonanza magnetica della lingua in audio vocale reale.

2025-09-04T22:11:10+00:00 ― 4 leggere min

Elaborazione dell'audio e del parlato Progressi e sfide nei modelli di riconoscimento vocale

Questo studio analizza come la compressione dei modelli influisce sul riconoscimento vocale in ambienti rumorosi.

2025-09-04T19:45:25+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nella Rilevazione di Eventi Sonori con OAL

Esplora come l'Apprendimento Attivo Online migliori l'efficienza nel riconoscimento dei suoni.

2025-09-04T18:56:50+00:00 ― 6 leggere min

Suono Sviluppi nei modelli di riconoscimento audio e vocale

Un nuovo modello migliora la comprensione del parlato e dei suoni contemporaneamente.

2025-09-04T18:08:15+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Progressi nella rilevazione della disartria usando il machine learning

Nuova tecnologia migliora la rilevazione della disartria e la classificazione della gravità.

2025-09-04T11:39:35+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nella detección della patologia vocale

Nuovi metodi migliorano la rilevazione precoce dei problemi vocali usando le caratteristiche della sorgente glottale.

2025-09-04T10:02:25+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Migliorare il riconoscimento vocale per accenti diversi

Migliorare i modelli di riconoscimento vocale per capire e adattarsi meglio ai diversi accenti.

2025-09-04T08:25:15+00:00 ― 5 leggere min

Suono Sviluppi nella classificazione audio usando DCLS

DCLS migliora le performance di classificazione audio imparando le posizioni dei kernel durante l'addestramento.

2025-09-04T07:36:40+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli Migliorare l'apprendimento audio-visivo con la co-augmentazione della velocità

Un nuovo metodo migliora l'apprendimento automatico dei dati audio-visivi.

2025-09-04T05:59:30+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Sviluppi nella tecnologia di estrazione del parlato

Introdurre nuovi modelli per estrarre meglio il parlato in ambienti rumorosi.

2025-09-04T02:45:10+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare il riconoscimento vocale con l'adattamento a bassa rank

Un nuovo metodo migliora l'efficienza del riconoscimento vocale usando l'adattamento a basso rango.

2025-09-04T00:19:25+00:00 ― 5 leggere min

Elaborazione del segnale Un Nuovo Approccio per Identificare i Sintomi della Schizofrenia

Combinare audio, video e testo per valutazioni della salute mentale migliori.

2025-09-03T22:42:15+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Migliorare il riconoscimento vocale con nuove tecniche

Uno sguardo ai progressi nel riconoscimento vocale per aumentare velocità e precisione.

2025-09-03T21:05:05+00:00 ― 5 leggere min

Calcolo e linguaggio Colmare le lacune linguistiche nella sanità

Migliorare la comunicazione fra medici e pazienti con tecnologie avanzate di riconoscimento vocale.

2025-09-03T18:39:20+00:00 ― 6 leggere min

Suono La Melodia di Synthia: Un Nuovo Strumento per la Ricerca Audio

La Melodia di Synthia aiuta i ricercatori a testare modelli audio su dati diversi.

2025-09-03T14:36:25+00:00 ― 6 leggere min

Calcolo e linguaggio Affrontare le sfide nel riconoscimento automatico del parlato a lungo termine

La ricerca si concentra sul miglioramento dei sistemi ASR per audio non segmentato.

2025-09-03T13:47:50+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzando nella sintesi vocale per un audio realistico

La ricerca si concentra sull'ottimizzazione dei sintetizzatori per le vocalizzazioni umane in diversi media.

2025-09-03T09:44:55+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Verifica vocale avanzata: affrontare la variabilità tra sessioni

Un nuovo metodo migliora la verifica dell'identità del parlante gestendo efficacemente la variabilità delle sessioni.

2025-09-03T08:56:20+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare il riconoscimento vocale con grandi modelli linguistici

I LLM migliorano l'accuratezza e la correzione degli errori nei sistemi di riconoscimento vocale.

2025-09-03T06:30:35+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato MC-SimCLR: Avanzando l'apprendimento sonoro e la consapevolezza della posizione

Un nuovo metodo migliora il riconoscimento dei suoni e la localizzazione delle fonti senza etichette.

2025-09-03T00:50:30+00:00 ― 6 leggere min

Calcolo e linguaggio HyPoradise: Migliorare l'accuratezza del riconoscimento vocale automatico

Un nuovo punto di riferimento per migliorare la precisione dell'ASR usando modelli di linguaggio.

2025-09-02T23:13:20+00:00 ― 6 leggere min

Calcolo e linguaggio Avanzamenti nella traduzione orale attraverso il contesto

Nuovi metodi migliorano la traduzione del parlato concentrandosi sulle informazioni contestuali.

2025-09-02T22:24:45+00:00 ― 5 leggere min

Suono Avanzando la tecnologia vocale con dati di code-switching

Un nuovo metodo migliora il riconoscimento vocale per gli utenti che alternano tra lingue.

2025-09-02T21:36:10+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Sfruttare il rilevamento di suoni anomali per risultati migliori

Scopri come l'analisi del suono aiuta a identificare i problemi delle macchine in modo efficiente.

2025-09-02T20:47:35+00:00 ― 6 leggere min

Calcolo e linguaggio Progressi nella traduzione vocale e nei sottotitoli

Questo progetto migliora i sistemi di traduzione vocale in tempo reale e di sottotitolazione automatica.

2025-09-02T18:21:50+00:00 ― 4 leggere min

Suono Nuove intuizioni sulla generalizzazione nelle reti neurali

Esplorando come la nitidezza dei minimi influisca sulle prestazioni del modello su dati audio non visti.

2025-09-02T15:56:05+00:00 ― 5 leggere min

Suono Combinare Voce e Viso per una Migliore Identificazione

Nuovo metodo migliora la verifica dell'identità degli speaker unendo dati audio e visivi.

2025-09-02T07:50:15+00:00 ― 5 leggere min

Suono Transformers nella rappresentazione musicale

Uno studio sull'uso dei transformer per un tagging e una rappresentazione musicale efficace.

2025-09-02T07:01:40+00:00 ― 7 leggere min

Multimedia Avanzamenti nella localizzazione degli altoparlanti audio-visivi

Un nuovo metodo migliora il tracciamento degli speaker usando dati audio e visivi.

2025-09-02T06:13:05+00:00 ― 7 leggere min

Informatica - Suono