Articoli più recenti per Riconoscimento vocale

Calcolo e linguaggio Avanzare nella Comprensione del Linguaggio Parlato con CCL

Un nuovo metodo migliora come i sistemi gestiscono gli errori nella comprensione del linguaggio parlato.

2025-08-08T14:20:30+00:00 ― 7 leggere min

Calcolo e linguaggio Decodifica di Fusione Generativa: Avanzando nel Riconoscimento del Testo

Un nuovo metodo migliora l'accuratezza del riconoscimento del testo in diverse applicazioni.

2025-08-07T22:00:54+00:00 ― 7 leggere min

Calcolo e linguaggio Nuovo Metodo di Attacco Zittisce i Sistemi ASR

Un clip audio universale può silenziare modelli ASR avanzati come Whisper.

2025-08-07T03:29:35+00:00 ― 6 leggere min

Calcolo e linguaggio Progressi nel Federated Learning per il Riconoscimento Vocale

Sfruttare modelli a uscita anticipata per un federated learning efficiente nei sistemi ASR.

2025-08-06T09:48:24+00:00 ― 9 leggere min

Calcolo e linguaggio Integrazione di modelli audio e linguistici: SpeechVerse

SpeechVerse collega la comprensione audio e l'elaborazione del linguaggio per migliorare l'interazione uomo-computer.

2025-08-06T06:26:25+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare il riconoscimento vocale in aula con un preaddestramento continuo

Il riconoscimento vocale migliorato per le aule usando tecniche di allenamento avanzate rende l'apprendimento migliore.

2025-08-05T19:06:15+00:00 ― 7 leggere min

Apprendimento automatico Sviluppi nel Riconoscimento Automático della Voce con Modelli Linguistici di Denoising

I modelli linguistici denoising migliorano la correzione degli errori nei sistemi di riconoscimento vocale usando dati sintetici.

2025-08-03T22:34:10+00:00 ― 8 leggere min

Suono Sviluppi nelle Tecniche di Inpainting del Parlato

Scopri come il speech inpainting sta riportando a nuovo l'audio in vari settori.

2025-08-02T18:13:45+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Introducendo il Modello 4D nel Riconoscimento Vocale

Un nuovo modello migliora il riconoscimento vocale usando più metodi di decodifica.

2025-08-01T01:44:35+00:00 ― 7 leggere min

Calcolo e linguaggio Migliorare il riconoscimento vocale arabo tramite la distillazione della conoscenza

Uno studio su come migliorare il riconoscimento vocale automatico per i dialetti arabi usando tecniche di modelli efficienti.

2025-07-31T23:18:50+00:00 ― 5 leggere min

Calcolo e linguaggio Progressi nell'Apprendimento Auto-Supervisionato per la Voce

Esplorare il ruolo dell'apprendimento auto-supervisionato nella elaborazione del parlato e le sue sfide.

2025-07-30T15:51:24+00:00 ― 8 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nella tecnologia di diarizzazione del parlato target

Uno sguardo ai nuovi metodi per capire il parlato sovrapposto durante le conversazioni.

2025-07-30T14:06:55+00:00 ― 8 leggere min

Suono Migliorare gli attacchi backdoor nel riconoscimento vocale

Nuovo metodo punta sui cambiamenti di ritmo per attacchi vocali furtivi.

2025-07-29T08:09:20+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato AV-CrossNet: Migliorare il riconoscimento vocale nel rumore

Un nuovo sistema aiuta a separare il parlato dal rumore per una comunicazione più chiara.

2025-07-29T03:17:50+00:00 ― 7 leggere min

Suono Diarizzazione del Parlante in Tempo Reale: Un'Panoramica

Scopri la diarizzazione degli speaker online e il suo significato in diverse applicazioni.

2025-07-28T06:14:40+00:00 ― 7 leggere min

Suono Valutare i Token Audio Discreti per i Compiti di Parola

Nuovo strumento di benchmark valuta i token audio discreti per vari compiti di elaborazione del parlato.

2025-07-28T04:37:30+00:00 ― 9 leggere min

Calcolo e linguaggio Migliorare la correzione degli errori di parola nei sistemi ASR

Un nuovo metodo combina caratteristiche acustiche e punteggi di fiducia per una correzione degli errori migliore.

2025-07-25T20:45:15+00:00 ― 5 leggere min

Calcolo e linguaggio Come i modelli di riconoscimento vocale gestiscono i cambiamenti sonori

Uno studio su come le macchine si adattano ai cambiamenti fonologici nel linguaggio.

2025-07-25T20:31:00+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Migliorare il riconoscimento dei parlanti con dati audio e visivi

Un sistema combina audio e video per migliorare l'accuratezza del riconoscimento degli speaker.

2025-07-25T10:13:40+00:00 ― 5 leggere min

Calcolo e linguaggio Sviluppi nei Sistemi di Dialogo Parlati

Un nuovo metodo migliora il dialogo macchina grazie a dati pseudo-stereo.

2025-07-25T08:36:30+00:00 ― 7 leggere min

Calcolo e linguaggio Migliorare il Riconoscimento Vocale Cinese Attraverso la Regolarizzazione del Pinyin

Questo studio presenta un dataset e un metodo per migliorare l'accuratezza dell'ASR cinese usando il Pinyin.

2025-07-25T07:47:55+00:00 ― 7 leggere min

Suono Analizzando le tecniche per rilevare l’audio deepfake

Questo studio si concentra sul miglioramento della rilevazione dell'audio deepfake usando metodi avanzati.

2025-07-25T02:56:25+00:00 ― 5 leggere min

Suono L'importanza di misurare l'incertezza nel riconoscimento delle emozioni nel parlato

Capire l'incertezza aumenta l'accuratezza del riconoscimento delle emozioni in situazioni reali.

2025-07-24T17:13:25+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Nuovo approccio per la diarizzazione dei parlanti

Un sistema per il riconoscimento vocale in audio multilingue senza bisogno di dati estesi.

2025-07-24T01:01:45+00:00 ― 5 leggere min

Calcolo e linguaggio Avanzamenti nell'anonimizzazione dei parlanti multilingue

Migliorare la tecnologia di anonimizzazione dei parlanti per nove lingue per garantire la privacy.

2025-07-23T03:58:35+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Progressi nel riconoscimento vocale audio-visivo

La ricerca sottolinea il ruolo del video nel migliorare il riconoscimento vocale in ambienti rumorosi.

2025-07-22T20:41:20+00:00 ― 5 leggere min

Suono Sviluppi nel riconoscimento vocale multi-parlante

Un nuovo metodo migliora l'accuratezza nel riconoscere il parlato di più persone.

2025-07-22T10:58:20+00:00 ― 5 leggere min

Neuroscienze Capire come i nostri cervelli elaborano il suono

Esplora come la corteccia uditiva integra il suono nel tempo.

2025-07-22T08:05:26+00:00 ― 6 leggere min

Suono Sviluppi nella tecnologia di miglioramento del suono

Un nuovo metodo migliora la chiarezza del parlato in ambienti rumorosi usando reti neurali duali.

2025-07-22T06:55:25+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Progressi nel riconoscimento vocale automatico in streaming

Il modello XLSR-Transducer è super per la trascrizione in tempo reale con poca roba.

2025-07-21T18:46:40+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Seed-ASR: Avanzare nella tecnologia di riconoscimento vocale

Un nuovo modello migliora la precisione nelle capacità di trascrizione vocale in più lingue.

2025-07-21T14:43:45+00:00 ― 5 leggere min

Suono Vulnerabilità nei sistemi di riconoscimento vocale svelata

La ricerca rivela rischi nei modelli di riconoscimento vocale multitasking come Whisper.

2025-07-21T09:52:15+00:00 ― 5 leggere min

Calcolo e linguaggio TokenVerse: Semplificare l'analisi delle conversazioni

TokenVerse semplifica l'analisi delle conversazioni parlate integrando più compiti in un unico modello.

2025-07-21T08:15:05+00:00 ― 6 leggere min

Suono Avanzando il riconoscimento di parole chiave Few-Shot con Mix-Training

Questo studio esamina il Mix-Training per il riconoscimento delle parole chiave in condizioni di parlato rumoroso.

2025-07-19T16:39:18+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzare nel riconoscimento vocale per lingue a basso resources

Migliorare i sistemi di riconoscimento vocale per le lingue con pochi dati online.

2025-07-19T04:25:45+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Spettrogrammi e Reti Neurali nel Riconoscimento Vocale

Questo studio esamina come le reti neurali interpretano il parlato usando gli spettrogrammi.

2025-07-18T22:45:40+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Migliorare il riconoscimento vocale con indizi contestuali

Scopri come il contesto migliora la precisione del riconoscimento vocale automatico e del riconoscimento delle parole.

2025-07-16T14:53:25+00:00 ― 5 leggere min

Calcolo e linguaggio Analizzando l'armonia vocalica in assamese con fiwGAN

Questo studio usa fiwGAN per esplorare i modelli di armonia vocalica nella lingua assamese.

2025-07-16T07:17:06+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Migliorare l'ASR con il Code-Switching tramite Distillazione della Conoscenza

Un nuovo framework migliora le prestazioni dell'ASR usando dati e risorse limitati.

2025-07-15T22:41:45+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Migliorare il formato dei numeri nei trascritti ASR

Questo articolo parla di modi per migliorare la formattazione delle espressioni numeriche nei trascritti automatici.

2025-07-14T15:55:35+00:00 ― 5 leggere min