アートとAIをつなぐ:新しいインタラクション方法
アーティストがクリエイティビティとAI音声生成をつなげるための新しいアプローチ。
― 1 分で読む
目次
この記事は、新しい音声生成モデルとのインタラクション方法について、さまざまなクリエイティブツールを使って紹介してるよ。目標は、アーティストが自分の動きや絵を使ってAIが音をどう作るかをコントロールできるようにすること。これによって、アーティストはAIの仕組みを理解し、その音に影響を与えられるかもしれないね。
マッピング戦略の概要
アート表現(絵やダンスの動きなど)をAIオーディオモデルに繋げるために、二段階の戦略が提案されてるよ。一段階目は、これらの表現をAIが理解できるシンプルな形に翻訳すること。二段階目は、アーティストがその形を使ってAIの音出力に影響を与える方法を作ること。
特徴抽出
ステップ1:第一段階では、特徴抽出に焦点を当ててる。このプロセスは、機械学習ツールを使って、ダンサーの動きやスケッチみたいな複雑なデータをシンプルな情報に変えることを含むよ。たとえば、ダンサーがいろんな動きをしたとき、その動きを記録して役立つデータに分解する機械学習モデルがある。これがあると、AIがそのデータを使いやすくなるんだ。
このデータを取得するために、アーティストはAIモデルが学習できるような動きやスケッチのコレクションを作る必要があるよ。ダンスの例では、ダンサーがどんな風に動くかを全部記録するってことになるね。AIはこの情報を使って、その動きが音にどう関わるかを理解する。
ステップ2: AIとのインタラクション
第二段階では、シンプルなデータとAIの音生成の接続を作るよ。アーティストは、自分のデータのいくつかの例を使ってAIをトレーニングする。つまり、特定の動きや絵がどんな音を作るかをAIに見せることになる。この情報で、AIはアーティストの表現に基づいて音を生成する方法を学ぶんだ。
このトレーニングを助けるために、アーティストはインタラクティブ学習のために設計されたツールを使うことができるよ。これらのツールを使うと、アーティストは自分の表現が音にどう変わるかを微調整できる。パラメータを調整することで、AIにアーティストの意図を反映させた音を生成させることができるんだ。
例のアプリケーション: スケッチから音へシステム
この戦略を実行する一つの方法が、スケッチを音に変えるシステムだよ。このセッティングでは、アーティストが画面に絵を描いて、その絵が生成される音に影響を与える。アーティストがスケッチすると、そのスケッチがオーディオモデルが理解できるデータに変換される。
オーディオモデルは、このデータに基づいてリアルタイムで音を生成する。アーティストはスケッチを変えることによってモデルとインタラクションできて、いろんな音を試すことができる。この直接的なインタラクションで、アーティストは自分のスケッチが音にどう影響するかを学びやすくなり、より魅力的な体験ができるよ。
そのアプローチの限界
この方法がクリエイティブ表現の新しい可能性を開く一方、いくつかの課題も抱えてる。ひとつの課題は時間に関するもので、アーティストがリアルタイムでAIとインタラクションすると、その音から音への移行がわかりにくい瞬間があるかもしれない。例えば、小さいスケッチから大きいものに急に変わると面白い音が出ることがあるけど、アーティストにその理由を説明するのが難しいこともあるよ。
普通、ほとんどのAIの説明は、モデルが単一の瞬間で何をしているかに焦点を当てていて、音から音にどう移行するかにはあまり触れてない。このため、AIの使い方を学んでいるアーティストは、タイミングやトランジションに関する重要な情報を見逃すかもしれない。
もうひとつの課題は、人々の表現方法の違いにある。現在のシステムは主にスケッチと音の接続に焦点を当ててる。この出発点はすごくいいけど、ダンスや楽器演奏など、他のアート表現形式も取り入れるように拡張できるかもしれない。他の形式を組み込む方法を見つけることで、さまざまなバックグラウンドのアーティストがこのシステムに関わりやすくなるだろう。
今後の方向性
今後は、このマッピング戦略をさまざまなクリエイティブ活動にどう適用できるか探ることが大事だよ。もっと多様なアート表現を使うことで、アーティストがAIとどうインタラクトし、どんな利益を得られるかについて学べる。
時間的側面の探求
これらのインタラクションのタイミングを調べることで貴重な洞察が得られるはず。異なる動きやスケッチが時間とともに特定の音出力につながる仕組みを理解することで、システムを洗練させる助けになるかも。これが、アート表現と音創造の関係に対する深い理解を促すことができるんだ。
クロスモーダル探求
異なる感覚がどうインタラクトするかを調べるのも、この研究に新しい道を開くかもしれない。たとえば、形が音にどう関わるかを研究することで、より微妙なインタラクションを開発できるかもしれない。現在のアプローチの中には、「明るい」「騒がしい」といった言葉で音を説明するものもあるけど、アーティストが生成する音の理解を深めるためには、もっと relatable な特徴を見つけることが目標だよ。
ひとつの研究過程として、スケッチの視覚的側面と音の特性をもっと直感的に結びつけることも考えられる。たとえば、アーティストが描きながら形を操作する方法を理解していれば、その形をユニークな音に翻訳する方法も学べるかもしれない。こんな探求が、全体の体験をより豊かで意味のあるものにするんだ。
多様なクリエイティブプラクティスの奨励
このマッピング戦略の目標は、アーティストが新しいクリエイティビティの形を試すようにインスパイアすることだよ。スケッチから音へのシステムは良い例だけど、他のアート形式でこの戦略がどれだけ機能するかテストすることが重要だよ。アーティストが自分の独自のクリエイティブプラクティスをAIとつなげることで、エキサイティングで革新的な結果が生まれるかもしれない。
結論
結論として、提案されたマッピング戦略は、アーティストがスケッチや動きといったクリエイティブ表現を通じてAIオーディオ生成モデルとインタラクションする道を提供してるよ。特にインタラクションの時間的およびクロスモーダルな側面を説明することに関して克服すべき課題があるけど、この技術を通じてアートプラクティスを拡張する大きな可能性がある。
複雑なデータを理解しやすい特徴に簡略化し、アーティストが音との意味のあるつながりを持つことを可能にすることで、このアプローチはクリエイティブ表現を高めることができるよ。今後の作業は、このマッピング戦略をさまざまなアート形式に広げ、異なるアートプラクティスがAIの領域でどのように相互に影響し合うかを探ることに集中すべきだね。
タイトル: A Mapping Strategy for Interacting with Latent Audio Synthesis Using Artistic Materials
概要: This paper presents a mapping strategy for interacting with the latent spaces of generative AI models. Our approach involves using unsupervised feature learning to encode a human control space and mapping it to an audio synthesis model's latent space. To demonstrate how this mapping strategy can turn high-dimensional sensor data into control mechanisms of a deep generative model, we present a proof-of-concept system that uses visual sketches to control an audio synthesis model. We draw on emerging discourses in XAIxArts to discuss how this approach can contribute to XAI in artistic and creative contexts, we also discuss its current limitations and propose future research directions.
著者: Shuoyang Zheng, Anna Xambó Sedó, Nick Bryan-Kinns
最終更新: 2024-07-05 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2407.04379
ソースPDF: https://arxiv.org/pdf/2407.04379
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。