Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Som# Inteligência Artificial# Processamento de Áudio e Fala

Geração de Áudio Aberta: Um Novo Modelo

Um novo modelo de texto pra áudio usando só dados públicos.

― 6 min ler


Novo Modelo de ÁudioNovo Modelo de ÁudioAbertoqualidade.Transformando texto em áudio de alta
Índice

Criar áudio a partir de texto é uma área de pesquisa que tá crescendo. O objetivo é ajudar artistas e pesquisadores facilitando a criação de Modelos que transformam palavras escritas em som. Mas, muitos sistemas existentes mantêm seus métodos e dados em segredo, dificultando que outros melhorem isso. A gente apresenta um novo modelo de texto para áudio que usa apenas dados disponíveis publicamente, permitindo que qualquer um acesse seus detalhes e resultados.

Por que Modelos Abertos São Importantes

Modelos abertos oferecem várias vantagens. Eles permitem que artistas e pesquisadores entendam como os modelos funcionam, e podem ser modificados pra atender diferentes necessidades. Infelizmente, muitos modelos atuais não são abertos ao público. Isso limita seu uso em novos projetos e pesquisas. Além disso, os dados usados pra treinar alguns modelos não são documentados corretamente, o que pode causar problemas com direitos autorais.

Por exemplo, alguns modelos usam conjuntos de dados como o AudioSet sem licenças claras. Outros, como o MusicGen, são abertos mas treinados com dados bem documentados e licenciados. Modelos abertos atuais frequentemente não chegam à qualidade dos melhores modelos disponíveis, especialmente na Geração de Áudio coerente por períodos mais longos.

Nossos Objetivos

O principal objetivo do nosso projeto é criar um modelo de áudio baseado em texto que atenda critérios específicos:

  • Usa apenas áudio licenciado sob Creative Commons.
  • Seus detalhes, incluindo pesos do modelo e código, estão disponíveis pra todo mundo usar.
  • Gera som estéreo de alta qualidade a uma taxa de 44,1 kHz.

Embora essa escolha de dados possa limitar a capacidade do modelo de criar música, garante transparência em como os dados foram coletados e usados.

Arquitetura do Modelo

Nosso modelo gera áudio de comprimentos variados (até 47 segundos) com base em prompts de texto. Ele tem três componentes principais:

  • Um autoencoder que comprime o áudio pra facilitar o trabalho.
  • Um sistema de incorporação de texto que conecta o texto com o áudio.
  • Um modelo de difusão que gera áudio com base nas entradas comprimidas.

O autoencoder pega áudio bruto e quebra em partes que dá pra lidar. Usa técnicas avançadas de processamento pra manter a qualidade do áudio enquanto simplifica os dados sonoros. O modelo de difusão trabalha em um espaço especialmente criado, seguindo uma série de passos pra gerar som que combine com o texto de entrada.

Processo de Treinamento de Dados

Treinamos nosso modelo usando gravações do Freesound e do Free Music Archive. Fizemos checagens rigorosas pra garantir que material protegido por direitos autorais não fizesse parte dos nossos Dados de Treinamento.

Para o Freesound, identificamos gravações musicais procurando tags específicas relacionadas à música e depois enviamos essas amostras marcadas pra uma empresa confiável fazer a checagem de direitos autorais. Depois de remover qualquer conteúdo sinalizado, conseguimos juntar um grande conjunto de arquivos de áudio. Da mesma forma, garantimos que o subconjunto do Free Music Archive não continha áudio protegido fazendo uma busca minuciosa em um grande banco de dados.

No total, acabamos com mais de 486.000 gravações de áudio que atendiam aos critérios de licenciamento do Creative Commons, adequadas pra treinar nosso modelo.

Treinando o Modelo

Durante o treinamento, dividimos o áudio em segmentos curtos. Isso ajudou a manter um conjunto diversificado de sons enquanto evitava que o modelo ficasse muito focado em gravações mais longas. Também garantimos uma mistura de fontes de alta fidelidade pra criar dados de áudio ricos.

Durante o treinamento do modelo, implementamos vários objetivos pra melhorar o desempenho. Por exemplo, focamos em reconstruir o áudio com precisão e usamos vários métodos pra avaliar o sucesso dos sons gerados.

Avaliação

Pra avaliar o desempenho do modelo, o comparamos com outros modelos existentes. Usamos dois conjuntos de dados principais durante a avaliação: um focado em sons gerais e outro em música instrumental. Os resultados mostraram que nosso modelo produziu sons realistas e foi competitivo com alguns dos melhores modelos disponíveis, especialmente na geração de efeitos sonoros.

Quando se tratou de geração de música, nosso modelo foi um pouco menos eficaz em comparação aos melhores modelos do mercado. No entanto, ainda superou outros modelos abertos similares. Durante a avaliação, também analisamos a qualidade do áudio gerado examinando as diferenças entre os sons gerados e os dados de treinamento originais.

Desempenho e Velocidade

Nosso modelo roda de forma eficiente em hardware padrão de consumidor, o que significa que qualquer um pode usá-lo sem precisar de equipamentos caros. Medimos o desempenho em termos de quão rapidamente o modelo podia gerar áudio. Os resultados mostraram um bom desempenho em várias configurações, tornando-o acessível a um público mais amplo.

Desafios e Limitações

Apesar das suas capacidades, nosso modelo enfrenta alguns desafios. Ele tem dificuldade em gerar prompts que contenham conectores, como "e" ou "com." Além disso, não consegue produzir fala clara, o que limita sua aplicação em tarefas de fala.

Como muitos modelos atuais de geração de áudio dependem de material protegido por direitos autorais, focamos em usar apenas áudio do Creative Commons. Essa decisão garante que nosso modelo atenda aos padrões legais, mas limita sua capacidade de produzir música de alta qualidade.

Direções Futuras

Olhando pra frente, planejamos continuar aprimorando nosso modelo. Melhorar a capacidade de gerar música enquanto mantemos a rigorosa adesão às regulamentações de direitos autorais será um foco chave. Também pretendemos expandir a gama de idiomas suportados pelo modelo, já que ele foi principalmente treinado com texto em inglês.

Conclusão

Em resumo, nosso novo modelo de texto para áudio demonstra o valor da pesquisa aberta e dos recursos comunitários. Ao confiar em dados do Creative Commons, garantimos que o áudio gerado esteja livre de problemas de direitos autorais. O modelo mostra potencial pra produzir áudio de alta qualidade e pode ajudar tanto artistas quanto pesquisadores. À medida que continuamos a refinar o modelo, esperamos abrir novas avenidas para a exploração criativa na síntese de áudio.

Artigos semelhantes