Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 機械学習# 人工知能

離散データ生成の進展

離散データ生成技術を向上させるための離散フローマッチングを紹介します。

― 1 分で読む


離散データ生成の新発見離散データ生成の新発見新しい方法が離散データ生成技術を改善する
目次

最近、画像や動画のような連続データを生成する方法が大きな可能性を示しているけど、高次元の離散データ、特に言語に関しては同じことは言えない。この論文では、離散データ生成のために特別に設計された新しい手法「Discrete Flow Matching」を紹介するよ。

Discrete Flow Matchingの主な貢献

  1. 一般的な確率経路: ソースとターゲットの分布をつなぐ多様な確率経路を使う。
  2. 学習した事後分布からのサンプリング: 確率デノイザやノイズ予測などの学習モデルを使って、これらの確率経路からサンプリングするための式を提供。
  3. 改善された困惑度: 特定の確率経路に焦点を当てることで、生成的困惑度が前のモデルと比べて大幅に向上。
  4. 大規模モデル: 17億パラメータのモデルを実装することで、コーディングベンチマークでの強力なパフォーマンスを実現。

Discrete Flow Matchingの必要性

連続信号生成の進展があるにもかかわらず、離散の連続データは依然として難題。既存の手法はしばしば離散データを連続空間に埋め込むか、離散状態の上にプロセスを設計する。この論文は、離散データに特化したフローアプローチに焦点を当てている。

Discrete Flow Matchingのフレームワーク

提案されたDiscrete Flow Matchingフレームワークは理論と実践を結びつけ、自己回帰的アプローチなしで離散データを生成するための最新の手法を生み出す。このモデルは、連続データ生成で使われるフローマッチングアプローチといくつかの類似点を示す。

訓練とパフォーマンス

多様なデータセットで訓練され、コード生成タスクで素晴らしい結果を出した。例えば、HumanEvalやMBPPのベンチマークで高い合格率を示した。また、テキスト生成タスクでも、生成的困惑度の面で以前の自己回帰モデルを超えた。

技術的な詳細

この手法は、ノイズ分布をターゲットデータ分布に変換する確率経路のフレームワークに基づいている。独立した結合と条件付き結合の両方を考慮し、確率経路を条件付き確率の凸結合として定義。これにより、生成品質が向上する柔軟性を持つ。

実験からの知見

実際には、確率経路の選択や補正メカニズムの調整がモデルのパフォーマンス向上に重要な役割を果たす。さまざまな設定で実験することで、著者たちはパフォーマンスを大幅に向上させる最適な設定を特定できた。

結論

Discrete Flow Matchingは、離散データ向け生成モデルの分野における注目すべき進展を示す。自己回帰モデルと離散手法の間を架け橋し、言語やコード生成におけるより大きな応用の可能性を示している。今後の方向性としては、確率経路のより広い設計空間を探求し、サンプリング効率のさらなる向上が含まれる。

コード生成の例

このモデルはコード生成タスクでも優れているよ。以下はその能力を示す例。

フィボナッチ関数

def fib(n: int):
    """n番目のフィボナッチを返す。"""
    if n < 1: return 0
    if n < 2: return 1
    return fib(n-1) + fib(n-2)

二分探索関数

def binary_search(arr, x):
    low, high = 0, len(arr) - 1
    while high >= low:
        mid = (high + low) // 2
        if arr[mid] < x:
            low = mid + 1
        elif arr[mid] > x:
            high = mid - 1
        else:
            return mid
    return -1

ローリングマックス関数

def rolling_max(numbers):
    """ローリングマックスのリストを生成する。"""
    max_number = 0
    result = []
    for number in numbers:
        max_number = max(max_number, number)
        result.append(max_number)
    return result

今後の作業

将来的には、モデルをより多くのアプリケーション向けに洗練させたり、サンプリング効率を高めたりするための多くの探求の道がある。Discrete Flow Matchingは、離散データの生成改善に向けた重要なステップを示し、この分野でのさらなる研究と開発の大きな可能性を提供している。

オリジナルソース

タイトル: Discrete Flow Matching

概要: Despite Flow Matching and diffusion models having emerged as powerful generative paradigms for continuous variables such as images and videos, their application to high-dimensional discrete data, such as language, is still limited. In this work, we present Discrete Flow Matching, a novel discrete flow paradigm designed specifically for generating discrete data. Discrete Flow Matching offers several key contributions:(i) it works with a general family of probability paths interpolating between source and target distributions; (ii) it allows for a generic formula for sampling from these probability paths using learned posteriors such as the probability denoiser ($x$-prediction) and noise-prediction ($\epsilon$-prediction); (iii) practically, focusing on specific probability paths defined with different schedulers improves generative perplexity compared to previous discrete diffusion and flow models; and (iv) by scaling Discrete Flow Matching models up to 1.7B parameters, we reach 6.7% Pass@1 and 13.4% Pass@10 on HumanEval and 6.7% Pass@1 and 20.6% Pass@10 on 1-shot MBPP coding benchmarks. Our approach is capable of generating high-quality discrete data in a non-autoregressive fashion, significantly closing the gap between autoregressive models and discrete flow models.

著者: Itai Gat, Tal Remez, Neta Shaul, Felix Kreuk, Ricky T. Q. Chen, Gabriel Synnaeve, Yossi Adi, Yaron Lipman

最終更新: 2024-11-05 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2407.15595

ソースPDF: https://arxiv.org/pdf/2407.15595

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事