Ingegneria elettrica e scienze dei sistemi - Elaborazione dell'audio e del parlato

Elaborazione dell'audio e del parlato Affrontare la sfida degli audio deepfake

Questo studio esamina l'efficacia dei modelli multilingue nel rilevamento di deepfake audio.

2025-08-14T00:40:35+00:00 ― 6 leggere min

Suono Misurare l'Adesione nei Modelli di Musica Generativa

Un nuovo modo per valutare quanto bene la musica segua i segnali audio.

2025-08-13T23:03:25+00:00 ― 8 leggere min

Visione artificiale e riconoscimento di modelli Presentiamo il dataset 360+x per una comprensione migliorata delle scene

Un nuovo set di dati migliora il modo in cui i robot interpretano gli ambienti reali.

2025-08-13T18:11:55+00:00 ― 7 leggere min

Suono Nuovo approccio alla separazione audio usando il linguaggio

Questo metodo migliora la separazione audio combinando descrizioni linguistiche con analisi del suono.

2025-08-13T14:57:35+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Presentiamo UniAV: Un Approccio Unificato alla Localizzazione dei Video

UniAV combina localizzazione dell'azione, rilevamento del suono e localizzazione degli eventi audio-visivi per una migliore comprensione dei video.

2025-08-13T10:06:05+00:00 ― 8 leggere min

Elaborazione dell'audio e del parlato CLaM-TTS: Avanzamento della Tecnologia Text-to-Speech

CLaM-TTS migliora la sintesi vocale usando tecniche avanzate per una resa migliore e più efficiente.

2025-08-13T08:28:55+00:00 ― 6 leggere min

Reti sociali e informative Analizzare la musica attraverso i grafici

I grafici permettono di avere nuove intuizioni sulla struttura e le relazioni della musica.

2025-08-13T03:09:57+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Migliorare il Text-to-Speech con RALL-E

RALL-E migliora la sintesi testo-parola per un parlato più chiaro e naturale.

2025-08-13T01:11:40+00:00 ― 5 leggere min

Suono MuPT: Avanzare nella Generazione Musicale con la Notazione ABC

MuPT utilizza la notazione ABC per una generazione musicale efficace con l'IA.

2025-08-12T09:00:00+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzando l'apprendimento audio con M2D e M2D-X

Nuovi metodi migliorano la rappresentazione audio attraverso tecniche di apprendimento self-supervised.

2025-08-12T07:22:50+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Ehi, ti presento PEAVS: un modo nuovo per misurare la sincronizzazione audio-visiva!

PEAVS analizza quanto bene audio e video funzionano insieme per migliorare l'esperienza degli spettatori.

2025-08-12T03:19:55+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Migliorare la Ricostruzione del Campo Sonoro con l'IA

Un metodo che usa l'IA migliora la rappresentazione del suono in diversi ambienti.

2025-08-12T00:54:10+00:00 ― 7 leggere min

Fisica classica Capire i Momenti Spettrali nei Test Elettromagnetici

Esplora il ruolo dei momenti spettrali nei test in camera di riverberazione e l'impatto del rumore.

2025-08-12T00:28:33+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Modello di trascrizione pianistica in tempo reale efficiente

Un nuovo sistema per una trascrizione di pianoforte in tempo reale, precisa e leggera.

2025-08-12T00:05:35+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli Any2Point: Collegare la comprensione 3D nei modelli di IA

Un nuovo framework migliora la comprensione dell'IA degli spazi 3D.

2025-08-11T19:14:05+00:00 ― 7 leggere min

Suono Sviluppi nella tecnologia di editing delle caratteristiche vocali

Il nuovo modello permette di controllare con precisione le qualità della voce mantenendo il contenuto.

2025-08-11T18:25:30+00:00 ― 4 leggere min

Elaborazione dell'audio e del parlato Valutare i modelli di elaborazione del parlato con SUPERB

Un nuovo framework per valutare i modelli di base nei compiti di parlato.

2025-08-11T09:31:05+00:00 ― 8 leggere min

Suono Avanzando l'IA nella generazione di testo in audio

Uno studio su come migliorare gli output audio dai prompt testuali usando l'ottimizzazione delle preferenze.

2025-08-11T07:05:20+00:00 ― 7 leggere min

Suono Sviluppi nella generazione automatica di musica con l'IA

Esplorando i recenti sviluppi degli strumenti di intelligenza artificiale per la creazione musicale.

2025-08-10T16:30:50+00:00 ― 5 leggere min

Elaborazione del segnale Combinare il rilevamento acustico attivo e passivo nella robotica

La ricerca esplora la fusione di tecniche sonore per migliorare la navigazione e la mappatura dei robot.

2025-08-10T13:16:30+00:00 ― 9 leggere min

Suono Migliorare il tagging musicale con l'embedding di parole musicali

Un nuovo approccio migliora il tagging e il recupero della musica combinando termini di linguaggio generale e termini musicali.

2025-08-10T06:47:50+00:00 ― 10 leggere min

Elaborazione dell'audio e del parlato FlashSpeech: Un Salto nella Sintesi Vocale

FlashSpeech offre soluzioni di sintesi vocale rapide e di alta qualità.

2025-08-10T03:33:30+00:00 ― 7 leggere min

Suono Sviluppi nella Rilevazione dei Deepfake con il Framework RAD

Un nuovo metodo migliora il rilevamento degli audio deepfake utilizzando riferimenti a campioni simili.

2025-08-10T01:07:45+00:00 ― 6 leggere min

Suono Misurare la Virtuosità nella Performance della Chitarra Elettrica

Questo studio analizza i segnali sonori per misurare la virtuosità tra i chitarristi elettrici.

2025-08-09T18:39:05+00:00 ― 5 leggere min

Suono Navigare le vulnerabilità nel riconoscimento delle emozioni nel parlato

Questo studio esamina le debolezze dei modelli SER contro attacchi avversari in diverse lingue.

2025-08-08T21:35:55+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzamento dell'estrazione del parlatore audio-visivo con SEANet

SEANet migliora l'isolamento degli altoparlanti riducendo il rumore nell'elaborazione audio.

2025-08-08T20:47:20+00:00 ― 7 leggere min

Suono SemantiCodec: Il Prossimo Passo nella Tecnologia Audio

Un nuovo codec audio che offre una compressione di alta qualità e un contenuto semantico ricco.

2025-08-08T19:10:10+00:00 ― 6 leggere min

Suono Nuovo strumento analizza contenuti audio e video

Un strumento che unisce analisi audio e video per identificare eventi.

2025-08-08T12:41:30+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Misurare l'Assorbimento del Suono: Un Nuovo Metodo

Un metodo per misurare quanto i materiali assorbono il suono in modo efficace.

2025-08-08T10:46:48+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzando l'ASR: Un Nuovo Approccio all'Apprendimento

Un metodo di apprendimento attivo in due fasi migliora l'accuratezza del riconoscimento vocale con meno dati.

2025-08-08T02:09:55+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Progressi nella tecnologia degli apparecchi acustici con il deep learning

Nuovi metodi migliorano la chiarezza del parlato negli apparecchi acustici grazie a tecniche di deep learning.

2025-08-08T01:21:20+00:00 ― 7 leggere min

Suono Localizzazione della sorgente sonora: Tecniche e applicazioni

Scopri le tecniche di localizzazione del suono e i loro usi in vari settori.

2025-08-07T23:44:10+00:00 ― 4 leggere min

Suono Affrontare l'aumento della rilevazione dell'audio deepfake

Nuovo dataset e metodi migliorano la rilevazione dei deepfake audio generati da ALM.

2025-08-07T06:43:55+00:00 ― 6 leggere min

Calcolo e linguaggio Valutare i sistemi ASR per la parlata balbettante

Questo studio valuta le performance dei sistemi ASR con persone che balbettano.

2025-08-07T04:18:10+00:00 ― 8 leggere min

Calcolo e linguaggio Nuovo Metodo di Attacco Zittisce i Sistemi ASR

Un clip audio universale può silenziare modelli ASR avanzati come Whisper.

2025-08-07T03:29:35+00:00 ― 6 leggere min

Suono Nuovo dispositivo migliora le conversazioni in ambienti rumorosi

Un dispositivo aiuta a concentrarsi su voci specifiche in posti affollati.

2025-08-06T19:23:45+00:00 ― 6 leggere min

Suono Avanzare nell'editing audio con i modelli di diffusione

Un nuovo metodo migliora il montaggio audio usando modelli di diffusione per modifiche precise.

2025-08-06T16:09:25+00:00 ― 5 leggere min

Calcolo e linguaggio Integrazione di modelli audio e linguistici: SpeechVerse

SpeechVerse collega la comprensione audio e l'elaborazione del linguaggio per migliorare l'interazione uomo-computer.

2025-08-06T06:26:25+00:00 ― 6 leggere min

Suono Valutare il pregiudizio nella tecnologia degli assistenti vocali

Un nuovo set di dati mette in evidenza le differenze di prestazioni tra i gruppi demografici che usano gli assistenti vocali.

2025-08-06T02:23:30+00:00 ― 6 leggere min

Calcolo e linguaggio Esaminare la sicurezza dei modelli di linguaggio

Questo articolo esplora le vulnerabilità nei modelli di discorso e i modi per migliorare la loro sicurezza.

2025-08-05T23:09:10+00:00 ― 6 leggere min