Articoli più recenti per Riconoscimento vocale

Calcolo e linguaggio Sviluppi nei Sistemi di Dialogo Parlati

Un nuovo metodo migliora il dialogo macchina grazie a dati pseudo-stereo.

2025-07-25T08:36:30+00:00 ― 7 leggere min

Calcolo e linguaggio Migliorare il Riconoscimento Vocale Cinese Attraverso la Regolarizzazione del Pinyin

Questo studio presenta un dataset e un metodo per migliorare l'accuratezza dell'ASR cinese usando il Pinyin.

2025-07-25T07:47:55+00:00 ― 7 leggere min

Suono Analizzando le tecniche per rilevare l’audio deepfake

Questo studio si concentra sul miglioramento della rilevazione dell'audio deepfake usando metodi avanzati.

2025-07-25T02:56:25+00:00 ― 5 leggere min

Suono L'importanza di misurare l'incertezza nel riconoscimento delle emozioni nel parlato

Capire l'incertezza aumenta l'accuratezza del riconoscimento delle emozioni in situazioni reali.

2025-07-24T17:13:25+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Nuovo approccio per la diarizzazione dei parlanti

Un sistema per il riconoscimento vocale in audio multilingue senza bisogno di dati estesi.

2025-07-24T01:01:45+00:00 ― 5 leggere min

Calcolo e linguaggio Avanzamenti nell'anonimizzazione dei parlanti multilingue

Migliorare la tecnologia di anonimizzazione dei parlanti per nove lingue per garantire la privacy.

2025-07-23T03:58:35+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Progressi nel riconoscimento vocale audio-visivo

La ricerca sottolinea il ruolo del video nel migliorare il riconoscimento vocale in ambienti rumorosi.

2025-07-22T20:41:20+00:00 ― 5 leggere min

Suono Sviluppi nel riconoscimento vocale multi-parlante

Un nuovo metodo migliora l'accuratezza nel riconoscere il parlato di più persone.

2025-07-22T10:58:20+00:00 ― 5 leggere min

Neuroscienze Capire come i nostri cervelli elaborano il suono

Esplora come la corteccia uditiva integra il suono nel tempo.

2025-07-22T08:05:26+00:00 ― 6 leggere min

Suono Sviluppi nella tecnologia di miglioramento del suono

Un nuovo metodo migliora la chiarezza del parlato in ambienti rumorosi usando reti neurali duali.

2025-07-22T06:55:25+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Progressi nel riconoscimento vocale automatico in streaming

Il modello XLSR-Transducer è super per la trascrizione in tempo reale con poca roba.

2025-07-21T18:46:40+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Seed-ASR: Avanzare nella tecnologia di riconoscimento vocale

Un nuovo modello migliora la precisione nelle capacità di trascrizione vocale in più lingue.

2025-07-21T14:43:45+00:00 ― 5 leggere min

Suono Vulnerabilità nei sistemi di riconoscimento vocale svelata

La ricerca rivela rischi nei modelli di riconoscimento vocale multitasking come Whisper.

2025-07-21T09:52:15+00:00 ― 5 leggere min

Calcolo e linguaggio TokenVerse: Semplificare l'analisi delle conversazioni

TokenVerse semplifica l'analisi delle conversazioni parlate integrando più compiti in un unico modello.

2025-07-21T08:15:05+00:00 ― 6 leggere min

Suono Avanzando il riconoscimento di parole chiave Few-Shot con Mix-Training

Questo studio esamina il Mix-Training per il riconoscimento delle parole chiave in condizioni di parlato rumoroso.

2025-07-19T16:39:18+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzare nel riconoscimento vocale per lingue a basso resources

Migliorare i sistemi di riconoscimento vocale per le lingue con pochi dati online.

2025-07-19T04:25:45+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Spettrogrammi e Reti Neurali nel Riconoscimento Vocale

Questo studio esamina come le reti neurali interpretano il parlato usando gli spettrogrammi.

2025-07-18T22:45:40+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Migliorare il riconoscimento vocale con indizi contestuali

Scopri come il contesto migliora la precisione del riconoscimento vocale automatico e del riconoscimento delle parole.

2025-07-16T14:53:25+00:00 ― 5 leggere min

Calcolo e linguaggio Analizzando l'armonia vocalica in assamese con fiwGAN

Questo studio usa fiwGAN per esplorare i modelli di armonia vocalica nella lingua assamese.

2025-07-16T07:17:06+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Migliorare l'ASR con il Code-Switching tramite Distillazione della Conoscenza

Un nuovo framework migliora le prestazioni dell'ASR usando dati e risorse limitati.

2025-07-15T22:41:45+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Migliorare il formato dei numeri nei trascritti ASR

Questo articolo parla di modi per migliorare la formattazione delle espressioni numeriche nei trascritti automatici.

2025-07-14T15:55:35+00:00 ― 5 leggere min

Calcolo e linguaggio Nuovi metodi nella lavorazione del linguaggio parlato

I ricercatori esplorano approcci senza testo per capire meglio il linguaggio parlato.

2025-07-13T18:11:30+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Sviluppi nelle tecniche di miglioramento del suono

Un nuovo modello migliora la chiarezza della voce mirando a rumori ed echi.

2025-07-12T15:20:35+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Sviluppi nell'analisi delle immagini mediche basata su voce

Un nuovo set di dati potenzia il settore sanitario con sistemi di domande vocali per le immagini mediche.

2025-07-12T04:00:30+00:00 ― 7 leggere min

Calcolo e linguaggio Ottimizzare la correzione degli errori ASR con i modelli di linguaggio

Uno studio su come migliorare l'accuratezza delle trascrizioni grazie a un design migliore dei prompt.

2025-07-11T15:03:05+00:00 ― 6 leggere min

Suono Migliorare il riconoscimento delle emozioni nel parlato in ambienti rumorosi

Un nuovo approccio migliora i sistemi SER utilizzando descrizioni degli ambienti rumorosi.

2025-07-11T06:08:40+00:00 ― 6 leggere min

Suono Approccio Innovativo alla Formazione degli Assistenti Vocali

Combinare TTS e dati reali migliora notevolmente i sistemi di riconoscimento vocale.

2025-07-10T00:59:40+00:00 ― 4 leggere min

Suono Progressi nelle Interfacce di Parlato Silenzioso

Nuovo metodo migliora la conversione del linguaggio muto in audio comprensibile.

2025-07-09T22:33:55+00:00 ― 6 leggere min

Suono Progressi nelle tecniche di separazione del parlato audio-visivo

Un nuovo metodo migliora la separazione delle voci in ambienti rumorosi con più parlanti.

2025-07-09T16:53:50+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Un Nuovo Metodo per Misurare il Significato del Suono

Questo studio presenta un metodo per valutare il significato dei segnali sonori.

2025-07-09T16:05:15+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Migliorare le tecnologie di riconoscimento del parlato sussurrato

Nuovi metodi puntano a migliorare il riconoscimento del linguaggio sussurrato nei sistemi automatici.

2025-07-08T08:30:30+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Migliorare il riconoscimento vocale con la collaborazione dell'AI

I modelli di intelligenza artificiale migliorano l'accuratezza delle conversioni da parlato a testo.

2025-07-07T09:50:10+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Bilanciare Privacy e Utilità nell'Analisi della Conversazione

Esaminando tecniche per proteggere la privacy mentre si analizzano conversazioni registrate.

2025-07-07T04:10:05+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato SynesLM: Avanzando la tecnologia audio-visiva del parlato

Un nuovo modello integra dati audio e visivi per il riconoscimento vocale e la traduzione.

2025-07-06T20:04:15+00:00 ― 6 leggere min

Suono Affrontare le sfide del riconoscimento degli accenti nella tecnologia vocale

Nuovi metodi migliorano l'accuratezza del riconoscimento vocale per diversi accenti.

2025-07-05T05:12:15+00:00 ― 5 leggere min

Calcolo e linguaggio Nuovo framework trasforma il parlato in grafi della conoscenza

Wav2graph crea grafi della conoscenza dal linguaggio parlato per migliorare la comprensione dell'AI.

2025-07-04T04:06:10+00:00 ― 7 leggere min

Suono Presentiamo MulliVC: Sistema di Conversione Vocale di Nuova Generazione

MulliVC trasforma le voci tra le lingue con una precisione e chiarezza impressionanti.

2025-07-03T11:54:30+00:00 ― 5 leggere min

Robotica I robot imparano a leggere le emozioni umane

Il nuovo sistema di navigazione dei robot capisce i comandi vocali attraverso le emozioni.

2025-07-02T20:42:06+00:00 ― 6 leggere min

Calcolo e linguaggio Il nuovo modello TOGGL migliora la trascrizione vocale

Il modello TOGGL migliora l'accuratezza della trascrizione in situazioni di discorso sovrapposto.

2025-07-02T03:31:10+00:00 ― 5 leggere min

Calcolo e linguaggio Migliorare il riconoscimento vocale con l'apprendimento della rappresentazione del rumore contestuale

Un metodo per migliorare la qualità del riconoscimento vocale in ambienti rumorosi.

2025-07-01T23:28:15+00:00 ― 7 leggere min