Informatica - Suono

RSS

Suono Nuovo approccio al trasferimento del timbro musicale

Un nuovo metodo migliora la trasformazione audio mantenendo melodia e qualità del suono.

2025-06-16T05:19:50+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Migliorare il Riconoscimento Vocale per Nomi Rari

Questo metodo migliora l'accuratezza del riconoscimento per i nomi rari nei risultati vocali.

2025-06-16T03:42:40+00:00 ― 6 leggere min

Suono Avanzare nella rilevazione dei deepfake audio

Un nuovo modello migliora il rilevamento degli audio deepfake con apprendimento continuo.

2025-06-15T23:39:45+00:00 ― 6 leggere min

Suono Sviluppi nella diarisazione degli speaker audio-visivi

Una panoramica dei metodi, delle sfide e dei sistemi di diarizzazione audio-visiva dei relatori.

2025-06-15T21:14:00+00:00 ― 5 leggere min

Suono Reti Neurali nella Modellazione del Riverbero Primaverile

Questo studio valuta le reti neurali per replicare le caratteristiche del riverbero a molla.

2025-06-15T20:24:12+00:00 ― 8 leggere min

Elaborazione dell'audio e del parlato BigCodec: Avanzando nel Codifica Vocale a Basso Bitrate

BigCodec migliora la qualità del suono nella trasmissione audio a bassa bitrate.

2025-06-15T19:36:50+00:00 ― 5 leggere min

Calcolo e linguaggio Migliorare i sistemi di riconoscimento vocale per le lingue indiane

Un nuovo dataset migliora la tecnologia del riconoscimento vocale multilingue in India.

2025-06-15T18:48:15+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Semplificare i modelli di linguaggio: ridurre la complessità nei transformer

Questo articolo parla dei vantaggi di semplificare i modelli transformer per i compiti di riconoscimento vocale.

2025-06-15T14:45:20+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Sviluppi nel Riconoscimento Vocale con Sortformer

Sortformer integra la diarizzazione degli speaker e l'ASR per migliorare l'elaborazione audio.

2025-06-15T09:05:15+00:00 ― 5 leggere min

Suono Nuovo Metodo per Sintetizzare Suoni di Pianoforte

Un modo nuovo per creare suoni di pianoforte realistici usando la separazione dei componenti sonori.

2025-06-15T07:28:05+00:00 ― 8 leggere min

Suono Progressi nella tecnologia di sintesi vocale emozionale

ParaEVITS migliora l'espressione emotiva nel TTS attraverso la guida del linguaggio naturale.

2025-06-15T05:50:55+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Ripristinare l'audio: L'arte e la scienza del riempimento

Scopri come l'audio inpainting ripara le parti mancanti dei segnali.

2025-06-15T05:02:20+00:00 ― 5 leggere min

Calcolo e linguaggio Progressi nella classificazione del linguaggio parlato

Nuovi metodi migliorano la comprensione del linguaggio parlato grazie a un dataset innovativo.

2025-06-15T04:13:45+00:00 ― 5 leggere min

Suono Migliorare la verifica del parlante con caratteristiche fonetiche

Un nuovo framework migliora l'accuratezza della conferma dell'identità vocale.

2025-06-15T01:50:18+00:00 ― 5 leggere min

Robotica Progressi nella tecnologia di riconoscimento vocale per robot

Nuovi metodi migliorano la conversazione uomo-robot rendendo il parlato più chiaro.

2025-06-15T01:48:00+00:00 ― 5 leggere min

Calcolo e linguaggio Sviluppi nella segmentazione dei temi nelle notizie parlate

Nuovi metodi migliorano l'accesso alle notizie parlate segmentando meglio gli argomenti.

2025-06-15T00:59:25+00:00 ― 7 leggere min

Calcolo e linguaggio Valutare le abilità di ragionamento musicale dei LLM

Uno studio sulle capacità dei LLM nel comprendere intervalli musicali, accordi e scale.

2025-06-14T21:37:30+00:00 ― 9 leggere min

Elaborazione dell'audio e del parlato Migliorare il tagging musicale con il few-shot learning

Un nuovo metodo per il tagging musicale usando il few-shot learning mostra risultati promettenti.

2025-06-14T20:56:30+00:00 ― 7 leggere min

Suono FlowSep: Un Nuovo Approccio alla Separazione delle Fonti Audio

FlowSep introduce un metodo nuovo per estrarre suoni usando query linguistiche.

2025-06-14T18:30:45+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Progressi nella generazione di audio da testo

SSR-Speech offre nuove soluzioni per la generazione e la modifica del parlato.

2025-06-14T16:05:00+00:00 ― 5 leggere min

Crittografia e sicurezza L'aumento dell'audio falso e dei sistemi di rilevamento

I progressi nell'IA rendono comuni gli audio falsi, spingendo a cercare modi per rilevarli.

2025-06-14T13:39:15+00:00 ― 6 leggere min

Suono Avanzare il Text-To-Speech per la Diversità Dialettale

Il nuovo modello migliora la generazione del parlato in diversi dialetti delle lingue a accento tonale.

2025-06-14T10:24:55+00:00 ― 5 leggere min

Suono Progressi nella localizzazione delle sorgenti sonore con l'apprendimento incrementale

Un nuovo metodo migliora l'accuratezza della localizzazione sonora garantendo la privacy dei dati.

2025-06-14T07:59:10+00:00 ― 4 leggere min

Elaborazione dell'audio e del parlato Sviluppi nell'estrazione del suono mirato con SoloAudio

SoloAudio migliora l'estrazione del suono usando tecniche avanzate e dati sintetici.

2025-06-13T17:24:40+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato OpenACE: Un Nuovo Standard per la Valutazione dei Codec Audio

OpenACE offre un buon punto di riferimento per valutare i codec audio in diverse condizioni.

2025-06-13T14:58:55+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Rilevare guasti nei motori elettrici usando il suono

Un metodo per identificare guasti nei motori elettrici tramite analisi del suono e reti neurali bayesiane.

2025-06-13T13:21:45+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Sviluppi nel riconoscimento vocale e nella previsione multi-token

I modelli di riconoscimento vocale si stanno evolvendo con la previsione multi-token per risposte più veloci.

2025-06-13T10:07:25+00:00 ― 5 leggere min

Calcolo e linguaggio Avanzare nel riconoscimento vocale per la lingua faetar

Sforzi per migliorare la tecnologia vocale per la lingua Faetar, che è poco supportata.

2025-06-13T09:18:50+00:00 ― 6 leggere min

Suono Sviluppi nella tecnologia di conversione della voce cantata

Un nuovo metodo zero-shot migliora l'accuratezza della conversione vocale e riduce al minimo le perdite sonore.

2025-06-13T06:04:30+00:00 ― 6 leggere min

Calcolo e linguaggio L'influenza del contesto del tono nelle conversazioni in mandarino

Uno studio rivela come i toni cambiano nel parlato quotidiano del mandarino taiwanese.

2025-06-13T03:38:45+00:00 ― 5 leggere min

Suono Rivelato un metodo innovativo per l'estrazione del parlatore target

Un nuovo approccio migliora l'isolamento vocale in ambienti audio misti usando token discreti.

2025-06-13T00:24:25+00:00 ― 5 leggere min

Suono Collegare Arte e Musica Attraverso le Emozioni

La ricerca collega i dipinti alla musica interpretando le emozioni.

2025-06-12T23:35:50+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Migliorare il riconoscimento vocale con i metodi MCCA

Un nuovo metodo migliora la rilevazione automatica dei problemi di linguaggio legati al morbo di Parkinson.

2025-06-12T19:32:55+00:00 ― 5 leggere min

Calcolo e linguaggio Migliorare il riconoscimento vocale in aula con un pre-addestramento continuo

Un nuovo approccio migliora i sistemi ASR per una comunicazione in aula migliore.

2025-06-12T18:44:20+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli Migliorare il Riconoscimento Vocale con Vari Tipi di Input

Questo articolo esplora come input diversi possono aumentare l'accuratezza del riconoscimento vocale.

2025-06-12T15:30:00+00:00 ― 5 leggere min

Suono Seed-Music: Semplificare la Creazione Musicale per Tutti

Un sistema che rende la creazione musicale facile e accessibile a tutti, indipendentemente dal livello di abilità.

2025-06-12T13:52:50+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Progressi nella classificazione audio zero-shot

ReCLAP migliora la classificazione audio con suggerimenti dettagliati per una maggiore precisione.

2025-06-12T13:04:15+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzare nel Riconoscimento Vocale per Persone con Disturbi

Un progetto mira a migliorare la tecnologia vocale per chi ha difficoltà di comunicazione.

2025-06-12T12:15:40+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato MambaFoley: Un Nuovo Approccio alla Creazione Audio

MambaFoley rivoluziona la sintesi del suono Foley con un tempo e un realismo migliorati.

2025-06-12T09:49:55+00:00 ― 6 leggere min

Suono Migliorare gli accenti nella tecnologia di sintesi vocale

Un nuovo sistema migliora l'accuratezza degli accenti nel TTS per una comunicazione migliore.

2025-06-12T08:12:45+00:00 ― 6 leggere min