Conectando Arte e IA: Novos Métodos de Interação
Uma nova forma de os artistas ligarem a criatividade com a geração de áudio AI.
― 6 min ler
Índice
- Visão Geral da Estratégia de Mapeamento
- Etapa 1: Extração de Características
- Etapa 2: Interação com a IA
- Aplicação Exemplo: Sistema Esboço-Pra-Som
- Limitações da Abordagem
- Direções Futuras
- Explorando o Aspecto Temporal
- Exploração Cross-Modal
- Incentivando Práticas Criativas Diversas
- Conclusão
- Fonte original
- Ligações de referência
Esse artigo fala sobre uma nova forma de interagir com modelos de geração de áudio usando ferramentas criativas diferentes. O objetivo é ajudar artistas a usar seus próprios movimentos ou desenhos pra controlar como os sons são feitos por uma IA. Esse método pode ajudar os artistas a entender como a IA funciona e como eles podem influenciar os sons produzidos.
Visão Geral da Estratégia de Mapeamento
Pra conectar expressões artísticas, como desenhos ou movimentos de dança, a um modelo de áudio de IA, propõe-se uma estratégia em duas etapas. A primeira etapa é traduzir essas expressões em formas mais simples que a IA consiga entender. A segunda etapa é criar uma maneira para o artista usar essas formas pra influenciar a saída de som da IA.
Extração de Características
Etapa 1:Na primeira etapa, o foco é na extração de características. Esse processo envolve usar ferramentas de aprendizado de máquina pra transformar dados complexos, como os movimentos de um dançarino ou esboços, em informações mais simples que representem essas ações de forma eficaz. Por exemplo, se um dançarino faz uma variedade de movimentos, um modelo de aprendizado de máquina pode registrar isso e dividir em dados úteis. Isso facilita pra IA usar esses dados.
Pra conseguir esses dados, o artista precisa criar uma coleção de movimentos ou esboços pra IA modelar a partir disso. No exemplo da dança, isso pode significar gravar todas as diferentes maneiras que um dançarino se move. A IA pode então usar essas informações pra entender como esses movimentos se relacionam com o som.
Etapa 2: Interação com a IA
A segunda etapa envolve fazer a conexão entre os dados simplificados e a geração de som da IA. Os artistas vão usar alguns exemplos de seus dados pra treinar a IA. Isso significa que eles vão mostrar à IA alguns movimentos ou desenhos específicos e quais sons eles criam. Com essas informações, a IA aprende a produzir som com base nas expressões do artista.
Pra facilitar esse treinamento, os artistas podem usar ferramentas projetadas pra esse tipo de aprendizado interativo. Essas ferramentas permitem que os artistas ajustem como suas expressões se traduzem em sons. Ao ajustar os parâmetros, eles podem guiar a IA na geração de sons que reflitam sua intenção artística.
Aplicação Exemplo: Sistema Esboço-Pra-Som
Uma maneira de colocar essa estratégia em prática é através de um sistema que usa esboços pra criar som. Nesse setup, os artistas desenham numa tela, e seus desenhos influenciam o áudio gerado. Quando um artista faz um esboço, o sistema converte aquele esboço em dados que o modelo de áudio pode entender.
O modelo de áudio então gera som com base nesses dados em tempo real. O artista pode interagir com o modelo mudando seus esboços, permitindo que eles experimentem diferentes sons. Essa interação direta facilita pro artista aprender como seus esboços impactam o áudio, criando uma experiência mais envolvente.
Limitações da Abordagem
Embora esse método abra novas possibilidades pra expressão criativa, ele também enfrenta desafios. Um desafio é relacionado ao tempo. Quando os artistas interagem com a IA em tempo real, pode haver momentos em que a transição de um som pra outro não é clara. Por exemplo, uma mudança rápida de um esboço pequeno pra um maior pode produzir sons interessantes, mas pode ser difícil explicar pro artista por que isso acontece.
Geralmente, a maioria das explicações de IA foca no que o modelo tá fazendo em um único momento, em vez de como ele se move de um som pra outro. Isso significa que um artista aprendendo a usar a IA pode perder informações importantes sobre tempo e transições.
Outro desafio tá nas diferentes formas que as pessoas podem se expressar. O sistema atual foca principalmente em esboços e conexões sonoras. Embora isso seja um ótimo ponto de partida, poderia ser expandido pra incluir outras formas de expressão artística, como dança ou tocar instrumentos musicais. Encontrar maneiras de incorporar essas outras formas poderia ajudar artistas de diferentes origens a se envolver com o sistema.
Direções Futuras
Seguindo em frente, é fundamental explorar como essa estratégia de mapeamento pode ser aplicada a várias atividades criativas. Usando mais formas de expressão artística, podemos aprender mais sobre como os artistas interagem com a IA e como eles podem se beneficiar disso.
Explorando o Aspecto Temporal
Investigar o timing dessas interações pode fornecer insights valiosos. Entender como diferentes movimentos ou esboços levam a saídas sonoras específicas ao longo do tempo pode ajudar a refinar o sistema. Isso pode promover uma apreciação mais profunda pela relação entre expressão artística e criação sonora.
Exploração Cross-Modal
Olhar como diferentes sentidos interagem pode abrir novas avenidas nessa pesquisa. Por exemplo, estudar como formas se relacionam com sons pode ajudar a desenvolver interações mais nuançadas. Enquanto algumas abordagens atuais usam palavras descritivas pra explicar sons, como "brilhante" ou "barulhento", o objetivo é encontrar características mais relacionáveis que possam melhorar a compreensão do artista sobre os sons produzidos.
Uma área potencial de pesquisa poderia envolver conectar aspectos visuais de esboços com características sonoras de uma forma mais intuitiva. Por exemplo, se um artista entende como manipular formas enquanto desenha, ele também poderia aprender como traduzir essas formas em sons únicos. Essa exploração pode enriquecer toda a experiência e torná-la mais significativa.
Incentivando Práticas Criativas Diversas
O objetivo dessa estratégia de mapeamento é inspirar artistas a experimentar novas formas de criatividade. Embora o sistema esboço-pra-som seja um exemplo forte, é crucial testar como essa estratégia pode funcionar em outras formas de arte. Incentivar artistas a conectar suas práticas criativas únicas com a IA pode levar a resultados inovadores e empolgantes.
Conclusão
Em conclusão, a estratégia de mapeamento proposta fornece um caminho para os artistas interagirem com modelos de geração de áudio de IA através de expressões criativas como esboços e movimentos. Embora haja desafios a serem superados, especialmente na explicação dos aspectos temporais e cross-modal da interação, existe um potencial significativo pra expandir práticas artísticas através dessa tecnologia.
Ao simplificar dados complexos em características compreensíveis e permitir que os artistas façam conexões significativas com o som, essa abordagem pode enriquecer a expressão criativa. Trabalhos futuros devem se concentrar em ampliar a aplicação dessa estratégia de mapeamento pra incluir várias formas de arte e explorar como diferentes práticas artísticas podem informar umas às outras no âmbito da IA.
Título: A Mapping Strategy for Interacting with Latent Audio Synthesis Using Artistic Materials
Resumo: This paper presents a mapping strategy for interacting with the latent spaces of generative AI models. Our approach involves using unsupervised feature learning to encode a human control space and mapping it to an audio synthesis model's latent space. To demonstrate how this mapping strategy can turn high-dimensional sensor data into control mechanisms of a deep generative model, we present a proof-of-concept system that uses visual sketches to control an audio synthesis model. We draw on emerging discourses in XAIxArts to discuss how this approach can contribute to XAI in artistic and creative contexts, we also discuss its current limitations and propose future research directions.
Autores: Shuoyang Zheng, Anna Xambó Sedó, Nick Bryan-Kinns
Última atualização: 2024-07-05 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.04379
Fonte PDF: https://arxiv.org/pdf/2407.04379
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.