Bhiksha Raj

Apprendimento automatico Migliorare le reti neurali profonde con intuizioni biologiche

Un nuovo strato migliora la resistenza delle DNN a cambiamenti sottili negli input.

2025-10-11T15:09:18+00:00 ― 6 leggere min

Calcolo e linguaggio Avanzamenti nella sintesi vocale con BASS

BASS migliora il riassunto di audio lunghi trattando in blocchi.

2025-10-08T15:05:55+00:00 ― 5 leggere min

Apprendimento automatico Affrontare gli errori di etichettatura nell'addestramento del modello

Questo articolo esamina le sfide e le soluzioni legate alle etichette rumorose nei dati di addestramento.

2025-09-20T07:53:36+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nel Captioning Audio con Addestramento Solo Testo

Un nuovo metodo allena sistemi di didascalia audio usando solo descrizioni testuali.

2025-09-13T02:56:55+00:00 ― 6 leggere min

Apprendimento automatico Sviluppi nelle tecniche di apprendimento debolmente supervisionato

Un nuovo framework migliora l'apprendimento da etichette di dati incomplete.

2025-09-12T00:01:24+00:00 ― 6 leggere min

Robotica Testare i robot per sfide inaspettate

Esplorando metodi per migliorare le performance dei robot in ambienti imprevedibili.

2025-09-09T02:53:54+00:00 ― 5 leggere min

Apprendimento automatico Migliorare l'apprendimento con etichette deboli tramite la selezione di esempi negativi

Nuove strategie migliorano l'apprendimento con etichette deboli selezionando esempi negativi rilevanti.

2025-09-06T04:57:20+00:00 ― 6 leggere min

Apprendimento automatico Le sfide dell'apprendimento di modelli rumorosi

Esaminando come il rumore nei dati di pre-addestramento influisce sulle prestazioni del modello.

2025-08-30T14:35:18+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Un nuovo approccio alla valutazione della qualità audio con PAM

PAM offre un modo nuovo per misurare la qualità audio senza bisogno di registrazioni di riferimento.

2025-08-26T21:10:50+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Valutare il riconoscimento vocale in ambienti rumorosi

Un nuovo benchmark valuta le prestazioni dei sistemi di riconoscimento vocale in mezzo a vari disturbi.

2025-08-19T14:16:50+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli I Vantaggi di una Leggera Corruzione nei Modelli di Diffusione

Investigando come piccoli errori nei dati di addestramento migliorano i contenuti generati dall'IA.

2025-08-04T09:29:06+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli Valutare i modelli SLAM in ambienti rumorosi

Un nuovo framework valuta le prestazioni del SLAM in condizioni difficili.

2025-07-25T00:06:30+00:00 ― 7 leggere min

Calcolo e linguaggio Tecniche innovative nel riconoscimento vocale per lingue a risorse limitate

Nuovi metodi migliorano i modelli vocali per le lingue con pochi dati.

2025-07-24T19:39:10+00:00 ― 6 leggere min

Suono Sviluppi nella tecnologia di riconoscimento delle emozioni nella voce

Nuovi metodi migliorano la comprensione delle emozioni umane nel linguaggio da parte delle macchine.

2025-07-12T18:34:55+00:00 ― 4 leggere min

Suono Valutare il ragionamento nei modelli audio-linguistici

Questo studio valuta le capacità di ragionamento dei modelli audio-linguistici con un nuovo compito.

2025-07-10T09:54:05+00:00 ― 8 leggere min

Calcolo e linguaggio L'impatto dei metodi di annotazione sulla sintesi vocale

Questo studio esamina come diversi metodi di sintesi influenzano qualità e contenuto.

2025-07-02T05:56:55+00:00 ― 5 leggere min

Suono Migliorare la verifica del parlante con caratteristiche fonetiche

Un nuovo framework migliora l'accuratezza della conferma dell'identità vocale.

2025-06-15T01:50:18+00:00 ― 5 leggere min

Suono Migliorare il riconoscimento vocale con caratteristiche ispirate all'uomo

Nuove caratteristiche acustiche migliorano le prestazioni dei sistemi ASR in ambienti rumorosi.

2025-06-03T14:29:40+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Progressi nei Codec Neurali con ESPnet-Codec

ESPnet-Codec migliora l'addestramento e la valutazione dei codec neurali per audio e parlato.

2025-06-03T03:09:30+00:00 ― 7 leggere min

Suono Rivoluzionare il sottotitolaggio audio con MACE

MACE migliora la didascalia audio collegando i suoni a descrizioni testuali accurate.

2025-05-28T17:47:08+00:00 ― 5 leggere min

Apprendimento automatico Capire i grafi: dai nodi alla conoscenza

Esplora come POGAT migliora l'analisi delle strutture grafiche complesse.

2025-05-04T12:20:00+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli SoftVQ-VAE: Trasformare la Generazione di Immagini

Scopri come SoftVQ-VAE migliora la creazione di immagini con efficienza e qualità.

2025-03-08T21:22:03+00:00 ― 6 leggere min