Articoli più recenti per Elaborazione Audio

Elaborazione dell'audio e del parlato Avanzando la localizzazione delle sorgenti sonore con DOA-PNN

Un nuovo metodo migliora la localizzazione del suono in ambienti diversi concentrandosi sull'apprendimento continuo.

2025-07-22T02:03:55+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nella Rilevazione degli Eventi Sonori con UCIL

Un nuovo metodo migliora il riconoscimento degli eventi sonori integrando efficacemente nuove classi audio.

2025-07-22T01:15:20+00:00 ― 7 leggere min

Apprendimento automatico Migliorare l'efficienza nei modelli di diffusione per il campionamento dei dati

Nuovi metodi migliorano la velocità e l'accuratezza del campionamento nei modelli di diffusione.

2025-07-21T11:17:44+00:00 ― 7 leggere min

Calcolo e linguaggio Valutare i sistemi di diarizzazione degli speaker online

Questo articolo esamina la latenza di vari sistemi di diarizzazione degli speaker nell'elaborazione audio.

2025-07-21T04:12:10+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nella separazione audio cinematografica

Esplora gli aggiornamenti nella versione 3 del dataset Divide and Remaster.

2025-07-19T12:31:35+00:00 ― 6 leggere min

Analisi funzionale Indagare sul decadimento dell'energia nelle reti convoluzionali

Uno studio sul comportamento energetico nelle reti di deep learning che migliora l'analisi dei segnali.

2025-07-19T10:56:37+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Valutare l'efficienza di Mamba nella tecnologia del parlato

Mamba promette bene contro i transformers nei compiti di linguaggio, specialmente per input lunghi.

2025-07-17T13:33:45+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Progressi nel riconoscimento vocale multi-canale

Il metodo CUSIDE-array migliora l'accuratezza del riconoscimento vocale in tempo reale nei sistemi multi-canale.

2025-07-17T02:13:35+00:00 ― 6 leggere min

Suono Adattare Whisper per un miglioramento della verifica dell'identità del parlante

Un nuovo framework migliora le prestazioni della verifica dell'identità con dati limitati.

2025-07-17T00:36:25+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Qwen2-Audio: Una Nuova Voce per la Tecnologia

Un modello guidato dalla voce che trasforma l'interazione audio con la tecnologia.

2025-07-16T00:18:55+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Sviluppi nel riconoscimento vocale da parte dei robot mobili

Un robot mobile impara a riconoscere le voci in ambienti rumorosi per applicazioni pratiche.

2025-07-15T16:13:05+00:00 ― 5 leggere min

Suono Generazione di Suono Innovativa per Modelli Umani 3D

Un nuovo metodo migliora la creazione del suono per modelli umani 3D realistici.

2025-07-15T00:01:25+00:00 ― 7 leggere min

Multimedia Avanzare nella localizzazione delle fonti sonore attraverso l'integrazione audio-visiva

Uno studio su come migliorare la localizzazione delle sorgenti sonore sfruttando meglio le informazioni audio e visive.

2025-07-14T06:12:35+00:00 ― 8 leggere min

Intelligenza artificiale Parlare di emozioni: Supporto audio per i sentimenti

Un progetto che offre supporto emotivo tramite risposte audio per chi ne ha bisogno.

2025-07-14T05:46:42+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli Potenziare la classificazione kNN con gradienti auto-supervisionati

Un nuovo metodo migliora la classificazione kNN usando gradienti per una migliore rappresentazione delle caratteristiche.

2025-07-13T10:33:18+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Segmentazione Audio-Visiva Referenziale: Un Nuovo Approccio

Combinare audio e informazioni visive migliora il riconoscimento degli oggetti nei video.

2025-07-13T10:17:30+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Integrare testo e suono per la segmentazione degli oggetti

Un nuovo metodo combina segnali audio e testuali per una migliore identificazione degli oggetti.

2025-07-13T10:01:42+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Sviluppi nelle tecniche di miglioramento del suono

Un nuovo modello migliora la chiarezza della voce mirando a rumori ed echi.

2025-07-12T15:20:35+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Trasformare la diffusione con tecnologia IP e tagging audio

Scopri come la trasmissione IP e il tagging audio stanno ridefinendo la distribuzione dei contenuti.

2025-07-12T05:37:35+00:00 ― 5 leggere min

Suono Valutare il ragionamento nei modelli audio-linguistici

Questo studio valuta le capacità di ragionamento dei modelli audio-linguistici con un nuovo compito.

2025-07-10T09:54:05+00:00 ― 8 leggere min

Suono Avanzando nella classificazione audio con nuove tecniche di apprendimento

Un metodo che migliora il riconoscimento dei suoni nelle macchine.

2025-07-09T17:42:25+00:00 ― 6 leggere min

Suono Sviluppi nelle tecnologie di rilevamento vocale

La ricerca combina il miglioramento della voce e l'apprendimento trasferito per sistemi anti-spoofing migliori.

2025-07-08T23:53:35+00:00 ― 8 leggere min

Elaborazione dell'audio e del parlato Migliorare il riconoscimento delle parole chiave in ambienti rumorosi

Un nuovo sistema migliora il riconoscimento dei comandi vocali nonostante il rumore di fondo.

2025-07-08T18:13:30+00:00 ― 5 leggere min

Multimedia Avanzando l'Apprendimento Zero-Shot Generalizzato Audio-Visivo

Un nuovo framework migliora la classificazione in compiti audio-visivi mai visti.

2025-07-06T04:41:10+00:00 ― 7 leggere min

Suono Ottimizzare la diarizzazione degli speaker per risultati più rapidi

Metodi per accelerare la diarizzazione degli speaker senza compromettere l'accuratezza.

2025-07-05T00:20:45+00:00 ― 7 leggere min

Suono GRAFX: Un Nuovo Strumento per la Elaborazione Audio

GRAFX offre una soluzione open-source per un'elaborazione audio efficiente con PyTorch.

2025-07-04T17:52:05+00:00 ― 4 leggere min

Multimedia Sviluppi nella segmentazione semantica audio-visiva

Un nuovo metodo migliora il riconoscimento degli oggetti nei video attraverso suoni e segnali visivi.

2025-07-04T10:13:36+00:00 ― 5 leggere min

Suono Migliorare le RNN per la modellazione degli effetti audio

Nuovi metodi per un miglior controllo delle RNN migliorano le simulazioni degli effetti audio.

2025-07-03T15:08:50+00:00 ― 9 leggere min

Suono Avanzando i metodi di rilevamento dell'audio deepfake

La ricerca si concentra sul rilevamento dell'audio deepfake attraverso tecniche migliorate e l'espansione dei dati.

2025-07-01T06:28:00+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Sviluppi nell'Audio e nel Processamento Linguistico

Il nuovo modello migliora i collegamenti tra i suoni e i loro significati testuali.

2025-06-30T08:36:15+00:00 ― 7 leggere min

Informatica neurale ed evolutiva Riconoscimento Efficiente delle Parole Chiave con Dispositivi Neuromorfici

Un nuovo metodo per il riconoscimento di parole chiave a basso consumo energetico utilizzando tecnologia neuromorfica.

2025-06-30T01:41:00+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Migliorare la Chiarezza nell'Audio: Tecniche di Separazione dei Dialoghi

La separazione dei dialoghi aiuta gli spettatori a sentire chiaramente le conversazioni in mezzo al rumore di fondo.

2025-06-29T11:33:05+00:00 ― 6 leggere min

Suono Progressi nel Few-Shot Learning per l'elaborazione audio

Questo pezzo parla del few-shot learning e del suo impatto sui task audio.

2025-06-28T12:04:10+00:00 ― 7 leggere min

Apprendimento automatico Avanzamenti nell'apprendimento compositivo audio

Un nuovo metodo migliora la separazione e generazione audio senza dati etichettati.

2025-06-28T05:35:30+00:00 ― 6 leggere min

Suono ASVspoof Challenge: Sviluppi nell'autenticazione vocale

Affrontare le sfide dell'audio falso e della verifica dell'oratore.

2025-06-28T00:44:00+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Progressi nella tecnologia di sintesi vocale con SSL-TTS

SSL-TTS semplifica la sintesi vocale usando pochi dati di addestramento per risultati di alta qualità.

2025-06-27T15:49:35+00:00 ― 6 leggere min

Multimedia Ripensare i benchmark per la localizzazione delle fonti audio-visive

I benchmark attuali non valutano bene la capacità dei modelli di collegare dati audio e visivi.

2025-06-25T16:03:10+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Sviluppi nei Metodi di Rilevamento dell'Inizio Musicale

Nuovi algoritmi migliorano l'accuratezza nell'identificare l'inizio delle note musicali.

2025-06-25T14:26:00+00:00 ― 7 leggere min

Suono Tecniche Avanzate per la Rilevazione di Spoofing Audio

Nuovi metodi migliorano il rilevamento di audio falsificato in condizioni reali.

2025-06-24T06:51:15+00:00 ― 4 leggere min

Elaborazione dell'audio e del parlato Nuove metriche per misurare il suono negli spazi

La ricerca propone metodi migliori per valutare la riverberazione tardiva nelle stanze.

2025-06-24T02:48:20+00:00 ― 6 leggere min