Simple Science

Scienza all'avanguardia spiegata semplicemente

# Ingegneria elettrica e scienze dei sistemi# Suono# Intelligenza artificiale# Elaborazione dell'audio e del parlato

Generazione Audio Aperta: Un Nuovo Modello

Un nuovo modello di testo-audio che usa solo dati pubblici.

― 5 leggere min


Nuovo Modello AudioNuovo Modello AudioApertoqualità.Trasformare il testo in audio di alta
Indice

Creare audio a partire dal testo è un campo di ricerca in crescita. L'obiettivo è aiutare artisti e ricercatori a sviluppare modelli che trasformano le parole scritte in suono. Però, molti sistemi esistenti tengono segreti i loro metodi e dati, rendendo difficile per altri migliorarli. Presentiamo un nuovo Modello di testo-audio che usa solo dati pubblici, permettendo a chiunque di accedere ai dettagli e ai risultati.

Perché i modelli aperti sono importanti

I modelli aperti offrono diversi vantaggi. Permettono a artisti e ricercatori di capire come funzionano e possono essere modificati per esigenze diverse. Purtroppo, molti modelli attuali non sono aperti al pubblico. Questo limita il loro utilizzo per nuovi progetti e ricerche. Inoltre, i dati usati per addestrare alcuni modelli non sono ben documentati, il che può portare a problemi di violazione del copyright.

Per esempio, alcuni modelli usano set di dati come AudioSet senza licenze chiare. Altri, come MusicGen, sono aperti ma addestrati su dati ben documentati e licenziati. I modelli aperti attuali spesso non raggiungono la qualità dei migliori modelli disponibili, soprattutto per generare audio coerente per periodi più lunghi.

I nostri obiettivi

L'obiettivo principale del nostro progetto è creare un modello audio basato su testo che rispetti criteri specifici:

  • Usa solo audio con licenza Creative Commons.
  • I suoi dettagli, incluse le pesature del modello e il codice, sono disponibili per tutti.
  • Genera suono stereo di alta qualità a una frequenza di 44,1 kHz.

Anche se questa scelta di dati può limitare la capacità del modello di creare musica, garantisce trasparenza su come i dati sono stati raccolti e usati.

Architettura del modello

Il nostro modello genera audio di lunghezze varie (fino a 47 secondi) basato su input testuali. Ha tre componenti principali:

  • Un'autoencoder che comprime l'audio per facilitarne l'elaborazione.
  • Un sistema di embedding testuale che connette il testo con l'audio.
  • Un modello di diffusione che genera audio basato sugli input compressi.

L'autoencoder prende audio grezzo e lo scompone in parti gestibili. Usa tecniche avanzate per mantenere la qualità audio mentre semplifica i dati sonori. Il modello di diffusione lavora in uno spazio creato appositamente, seguendo una serie di passi per generare suono che corrisponde al testo di input.

Processo di addestramento dei dati

Abbiamo addestrato il nostro modello usando registrazioni da Freesound e dal Free Music Archive. Abbiamo fatto controlli approfonditi per assicurarci che materiale protetto da copyright non fosse parte dei nostri Dati di addestramento.

Per Freesound, abbiamo identificato registrazioni musicali cercando specifici tag legati alla musica e poi abbiamo inviato questi campioni segnalati a un'azienda fidata per un controllo sul copyright. Dopo aver rimosso eventuali contenuti segnalati, abbiamo raccolto con successo un grande insieme di file audio. Allo stesso modo, ci siamo assicurati che il sottoinsieme dal Free Music Archive non contenesse audio protetto da copyright conducendo una ricerca approfondita contro un ampio database.

In totale, abbiamo ottenuto oltre 486.000 registrazioni audio che rispettano i criteri di licenza Creative Commons, adatte per addestrare il nostro modello.

Addestramento del modello

Durante l'addestramento, abbiamo scomposto l'audio in brevi segmenti. Questo ha aiutato a mantenere un insieme diversificato di suoni evitando che il modello si concentrasse troppo su registrazioni più lunghe. Abbiamo anche garantito una miscela di fonti ad alta fedeltà per creare dati audio ricchi.

Durante l'addestramento del modello, abbiamo implementato vari obiettivi per migliorare le prestazioni. Ad esempio, ci siamo concentrati sulla ricostruzione accurata dell'audio e abbiamo usato diversi metodi per valutare il successo dei suoni generati.

Valutazione

Per valutare le prestazioni del modello, lo abbiamo confrontato con altri modelli esistenti. Abbiamo usato due set di dati principali durante la valutazione: uno focalizzato su suoni generali e l'altro su musica strumentale. I risultati hanno mostrato che il nostro modello produceva suoni realistici ed era competitivo con alcuni dei modelli leader disponibili, soprattutto per la generazione di effetti sonori.

Quando si trattava di generazione musicale, il nostro modello era leggermente meno efficace rispetto ai migliori modelli sul mercato. Tuttavia, ha comunque superato altri modelli aperti simili. Durante la valutazione, abbiamo anche esaminato la qualità dell'audio generato confrontando i suoni generati con i dati originali di addestramento.

Prestazioni e velocità

Il nostro modello funziona in modo efficiente su hardware consumer standard, il che significa che chiunque può usarlo senza bisogno di attrezzature costose. Abbiamo misurato le prestazioni in base a quanto rapidamente il modello potesse generare audio. I risultati hanno mostrato buone prestazioni in vari setup, rendendolo accessibile a un pubblico più ampio.

Sfide e limitazioni

Nonostante le sue capacità, il nostro modello affronta alcune sfide. Ha difficoltà a generare input che contengono connettori, come "e" o "con". Inoltre, non può produrre parlato chiaro, il che limita la sua applicazione per compiti di parola parlata.

Poiché molti attuali modelli di Generazione Audio dipendono da materiale protetto da copyright, ci siamo concentrati sull'uso solo di audio Creative Commons. Questa decisione garantisce che il nostro modello rispetti gli standard legali, ma limita la sua capacità di produrre musica di alta qualità.

Direzioni future

Guardando al futuro, abbiamo in programma di continuare a migliorare il nostro modello. Migliorare la capacità di generare musica mantenendo la rigorosa adesione alle normative sul copyright sarà un obiettivo chiave. Miriamo anche ad espandere la gamma di lingue supportate dal modello, poiché è stato principalmente addestrato usando testo in inglese.

Conclusione

In sintesi, il nostro nuovo modello di testo-audio dimostra il valore della ricerca aperta e delle risorse comunitarie. Affidandoci ai dati Creative Commons, garantiamo che l'audio generato sia privo di problemi di copyright. Il modello mostra promettente nel produrre audio di alta qualità e ha il potenziale di assistere sia artisti che ricercatori. Mentre continuiamo a perfezionare il modello, speriamo di aprire nuove strade per esplorazioni creative nella sintesi audio.

Articoli simili