深層学習のためのより良い活性化関数を見つける
新しい方法がディープラーニングモデルの活性化関数の検索を改善する。
Lukas Strack, Mahmoud Safari, Frank Hutter
― 1 分で読む
異なる活性化関数は、さまざまなディープラーニングタスクに対して異なるパフォーマンスを発揮する。これを活かすために、最近のニューラルネットワークの勾配ベースの探索手法の改善を利用して、特定のアプリケーションに適した効果的な活性化関数を見つけることができる。ファイングレインドサーチセルと呼ばれる新しい手法は、基本的な数学演算を組み合わせて活性化関数を作成し、新しい選択肢を開く。この技術は、画像の分類から言語の理解まで、さまざまなモデルのパフォーマンスを向上させる特化した活性化を特定するのに役立つ。発見された活性化関数は、大きなモデルや新しいデータセットにも適応性が良いことを示している。重要なのは、これらのカスタマイズされた活性化関数を作成する自動化プロセスが、従来の手法に比べて大幅に早いことだ。このアプローチは既存のディープラーニングシステムに簡単に統合でき、これらのシステムを改善するための実用的な方法を提供する。
はじめに
非線形活性化関数は、ディープニューラルネットワークの重要な部分だ。これらの関数の選択は、ネットワークのトレーニングや全体的なパフォーマンスに大きく影響する。修正線形ユニット(ReLU)は、そのシンプルな特性とさまざまなタスクでの信頼性の高い結果から一般的に使用されている。しかし、ReLUがディープラーニングのユーザーの間で人気が出るまでには、何年もの試行錯誤があった。
ReLUにはたくさんの利点があるけど、死んだReLUの問題に対処するために他の選択肢も導入されている。主にReLUに基づいたさまざまな代替案は、特定の状況で性能を向上させることが示されているが、まだReLUの広範な使用には達していない。
タスクに適した活性化関数を作成するのは難しく、ReLU、GELU、SiLUのような確立されたものを使うと、時にはより良いパフォーマンスを犠牲にすることもある。自動化された探索手法が活性化関数を見つけるために試みられたが、通常は多くの関数評価が必要であり、あまり使われていない。
標準の活性化関数を評価するのと同じコストでカスタム活性化関数を設計できるなら、それはすぐにユーザーの間で人気が出るだろう。それがこの研究の主な目標だ。
この研究は、最近数千本の論文が発表されているニューラルアーキテクチャ探索(NAS)の成長する分野にアプローチしている。ほとんどのNAS手法は、層の数や操作の種類など、ネットワークの構造に焦点を当てつつ、活性化を固定にしている。
最近、効率的な勾配ベースの手法が登場し、従来のブラックボックスアプローチに比べて大幅に時間を短縮できる。これにより、基本的な数学演算を組み合わせて効果的な活性化関数を見つけるために、これらのNAS技術を適応させることができる。
手法
まず、活性化関数の探索空間と、それに基づいて構築する勾配ベースのアーキテクチャ探索のツールを概説する。そして、これらの手法をどのように調整して活性化関数を効率的に探索するかを説明する。
活性化関数の探索空間
活性化関数の探索空間は、一元演算と二元演算を組み合わせてスカラー関数を作成することによって定義される。具体的な演算は、既存の活性化関数を含む基本的な数学関数のセットから選択され、探索の可能性が広がる。
計算グラフの辺と頂点は、選択された演算のいずれかを取ることができる。この離散的な空間で最適化を容易にするために、一元演算と二元演算の加重和を使用して空間をスムーズにする。
勾配ベースのニューラルアーキテクチャ探索のツール
私たちは、活性化関数の探索の基礎となるよく知られた勾配ベースの手法から始める。最初の重要な手法は、重み共有とパラメータの連続的な緩和を使用するもので、勾配降下法を使って探索空間を探索できるようにする。
私たちの問題では、パラメータは一元演算と二元演算に関連する。探索フェーズの後、探索空間からアーキテクチャを選ぶための最終ステップが必要だ。残念ながら、この手法は最終選択プロセス中にパフォーマンスが低下することがある。
これに対処し、より良い探索を促進するために、探索を分布学習の問題として扱う。このアプローチにより、特定の分布からパラメータをサンプリングすることができ、アーキテクチャ探索の初期試験で役立つことがわかった。
活性化関数の探索
アーキテクチャの空間と活性化の空間の類似性を考慮すると、既存のアーキテクチャ探索手法を活性化空間の探索に直接利用することが可能に思えた。しかし、これらの最適化手法を調整なしで適用すると、活性化探索には成功しなかった。
効果的な最適化を確保するために、アプローチを強化するさまざまな手法を導入する。
検索のウォームスタート
検索プロセスを強化するために、元の活性化関数を使ってモデルの重みを更新しながら、検索セルを最適化する短いウォームアップフェーズから始める。これにより、ネットワークと活性化パラメータの両方に合理的な出発点を設定できる。
操作の制約
活性化探索の基本的な最適化プロセスは、発散した結果によって失敗することが多い。これは、爆発する勾配を引き起こす無制限の活性化関数が原因だ。これを克服するために、探索空間内の操作を調整して特定の範囲内に留める。
漸進的縮小
アーキテクチャ空間と活性化空間の間には顕著な違いがある。活性化空間の操作はほぼパラメータフリーであり、その効果は大きく異なることがある。これは、係数に基づいて最良の操作を特定することが難しいことを意味する。
結果を改善するために、活性化パラメータを追跡して、検索のエポックごとに最も重要でない操作を排除する。この漸進的なトリミングにより、各辺や頂点に単一の操作がある最終構造が得られ、探索プロセスが簡素化される。
実験
私たちは、私たちの手法がResNet、ViT、GPTの3種類のニューラルアーキテクチャで効果的な活性化関数をどれだけ見つけられるかを調べる。各アーキテクチャは、全体を通して1つの活性化関数を使用する。
検索プロセスでは、元の活性化関数を検索セルに置き換え、前述の手法を使って最適化する。信頼性を確保するために、検索を何度も繰り返し、毎回異なる活性化関数を発見する可能性がある。
異なるアーキテクチャでの結果
残差ネットワーク(ResNet)
ResNetは、深いネットワークのトレーニングの課題を管理するのに役立つ。このセクションでは、ResNet20のCIFAR10でのパフォーマンスを向上させるために活性化関数を強化することを目指す。ReLUを検索セルに置き換え、活性化関数の探索を実施する。
探索を実行した結果、さまざまな新しい活性化関数が発見される。これらはデータセットで再トレーニングされ、そのパフォーマンスが確立されたベースラインと比較される。結果は、CIFAR10タスクでいくつかの新しい活性化がReLUを上回り、大きなモデルと新しいデータセットに適応性があることを示している。
ビジョントランスフォーマー(ViT)
ビジョントランスフォーマーは、画像処理タスクで人気を集めている。この部分では、自動化された探索を使ってViTアーキテクチャに適した活性化を見つける。計算負荷を避けるために小さなモデル、ViT-Tiで探索を行う。
新しく発見された活性化関数は評価され、既存のものと比較される。結果は、すべての新しい活性化がViT-Tiモデルでさまざまな評価中により良いパフォーマンスを示し、広範なタスクにおける効果を示している。
ジェネレーティブ事前学習トランスフォーマー(GPT)
実験を多様化するために、私たちの手法の評価を言語モデリングタスクに拡張し、ジェネレーティブ事前学習トランスフォーマーを使用する。GPTアーキテクチャの小さなバージョン内で活性化関数を最適化する。
探索の後、新しい活性化関数が特定され、モデルで使用されていた元の関数と比較してテストロスが低下していることが示された。これらの改善は、大きなGPTバリアントにも持ち越される。
結論
この研究は、現代の勾配ベースの技術を適用して活性化関数を探索する。手法は、一般的に使用されている代替案を上回るカスタマイズされた活性化関数を特定することに成功した。さらに、発見された関数は柔軟性があり、大きなモデルや新しいデータセットでうまく機能する。
特に、最適化プロセスは非常に効率的で、評価の数が非常に少なくて済む。これにより、ユーザーは自分のニーズに特化した活性化関数を設計するためにこれらの手法を適用しやすくなる。
この研究は、これらの勾配ベースの技術の可能性を強調しつつ、探索空間や手法の改良、さまざまな負荷に対してパフォーマンスを維持する活性化関数の開発などのさらなる探求の機会を開く。目標は、この分野でのさらなる研究を促進することだ。
タイトル: Efficient Search for Customized Activation Functions with Gradient Descent
概要: Different activation functions work best for different deep learning models. To exploit this, we leverage recent advancements in gradient-based search techniques for neural architectures to efficiently identify high-performing activation functions for a given application. We propose a fine-grained search cell that combines basic mathematical operations to model activation functions, allowing for the exploration of novel activations. Our approach enables the identification of specialized activations, leading to improved performance in every model we tried, from image classification to language models. Moreover, the identified activations exhibit strong transferability to larger models of the same type, as well as new datasets. Importantly, our automated process for creating customized activation functions is orders of magnitude more efficient than previous approaches. It can easily be applied on top of arbitrary deep learning pipelines and thus offers a promising practical avenue for enhancing deep learning architectures.
著者: Lukas Strack, Mahmoud Safari, Frank Hutter
最終更新: 2024-08-13 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2408.06820
ソースPDF: https://arxiv.org/pdf/2408.06820
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。