# コンピューターサイエンス # ソフトウェア工学 # 暗号とセキュリティ # 機械学習

言語モデルで脆弱性データを増強する

言語モデルを使って脆弱性検出データセットを強化する。

Seyed Shayan Daneshvar, Yu Nong, Xu Yang, Shaowei Wang, Haipeng Cai

2025-07-01T05:04:12+00:00 ― 1 分で読む

背景
データ拡張戦略
1. ミューテーション
2. インジェクション
3. エクステンション
方法論
結果
生成サンプルの多様性
コスト分析
妥当性に対する脅威
結論
オリジナルソース
参照リンク

ソフトウェアの脆弱性を検出することは、システムを安全に保ち、正しく動作させるために重要だよ。これまでの数年間、ディープラーニングモデルを使って脆弱性を見つけることが一般的になってきたけど、いくつかの課題があるんだ。大きな問題の一つは、これらのモデルを効果的にトレーニングするためのデータが足りないこと。これに対処するために、データ拡張技術が役立つことがあるけど、偽の脆弱なコードを作るのは簡単じゃなくて、注意深くやらないと間違いを引き起こすこともある。

最近、大規模な言語モデル（LLM）がコーディングタスクで期待できる結果を示しているよ。LLMはコードを生成したり理解したりできるから、脆弱なコードの例をもっと作るのに役立つかもしれない。この文章では、LLMを使った脆弱性データの拡張方法についていくつかの技術を紹介して、特に「ミューテーション」、「インジェクション」、「エクステンション」の3つの戦略に焦点を当てるよ。これらの方法が既存の技術とどれくらい効果があるかも評価するんだ。

背景

脆弱性の検出はソフトウェアエンジニアリングの重要な側面だよ。ディープラーニングモデルがこのタスクに人気を集める中、研究者たちはこれらのモデルがコードの欠陥を見つける能力を向上させることに取り組んでいる。でも、これらのモデルを効果的にトレーニングするためにはかなりのデータセットが必要で、しばしば制限されているんだ。一部の研究者たちは、偽の脆弱性を生成したり、既存の脆弱なサンプルの数を増やしたりしてこのギャップを埋めようとしている。

新しいデータを作成するためのいくつかのアプローチがあるけど、ほとんどが1種類の脆弱性に集中しているんだ。これでは実際の脆弱性のほんの一部しかカテゴライズできないから、役に立たなくなってしまうんだ。この状況で、LLMはさまざまなプログラミング構文を理解したり生成したりできるから、脆弱なコードを生成するための強力なツールになっているよ。

データ拡張戦略

この記事では、LLMを使って脆弱なコードサンプルを生成するための3つの異なる戦略を紹介するよ：

1. ミューテーション

ミューテーション戦略は、既存の脆弱なコードを変更することに関わるんだ。この方法では、モデルがコードの元の意味を保持しつつ、新しい脆弱性を導入する変更を加えることができるんだ。LLMにコードスニペットの特定の部分を変更するように促すことで、生成される例の多様性を促進するよ。

このアプローチでは、LLMに機能に影響を与えずにコードを変更する方法を指示する明確なプロンプトを提案するよ。目指すのは、元のコードと同じ脆弱性を保持した新しい例を作ることなんだ。

2. インジェクション

インジェクション手法は、1つのコードサンプルから脆弱なセグメントを別のクリーンなコードサンプルに挿入することを含むんだ。この戦略は、脆弱なコードのロジックをクリーンなコードにリンクさせることに焦点を当てていて、より複雑な脆弱性が現れることを可能にするよ。脆弱なコードの部分を慎重に選ぶことで、LLMが新しい脆弱なサンプルを効果的に生成できるように導くんだ。

ミューテーション戦略と同じように、LLMにインジェクションを行う方法を指示する構造化されたプロンプトを提供するよ。ここでの目標は、実際の脆弱性を表すさまざまな例を生成することなんだ。

3. エクステンション

エクステンションは、既存の脆弱なコードスニペットに新しいロジックを追加するという一歩進んだアプローチだよ。ここでは、脆弱性の文脈を拡大して、その脆弱性が現れるシナリオを豊かにすることを目指しているんだ。この方法では、元の欠陥を保持しつつ、その欠陥が現れるさまざまな状況を探ることができるよ。

この戦略のプロンプトは、クリーンなコードサンプルの部分を脆弱なサンプルに含めるようにLLMに指示し、脆弱性を定義する重要な行を変更しないようにするんだ。

方法論

これらの戦略の効果を評価するために、2つの異なるLLMを使って脆弱なサンプルを生成したよ。そして、これらのサンプルが脆弱性を検出するために設計されたディープラーニングモデルの性能をどのように改善したかをテストしたんだ。評価には、多くのデータサンプルを使った広範な実験を含めて、堅牢な結果を保証したよ。

私たちのアプローチを既存の方法と比較したんだけど、データセットを強化するための従来の技術も含まれているんだ。コアの評価は、各戦略がモデル用の効果的なトレーニングデータを作成する能力に焦点を当てつつ、全体的な品質と多様性を分析するいくつかの質問に基づいているよ。

結果

私たちの調査結果では、インジェクションとエクステンション戦略が従来の方法やミューテーション戦略を上回ることがわかったよ。特に、インジェクションは常に他の方法よりも高いF1スコアを記録していて、脆弱性検出モデルに有用なデータを生成する効果があることを確認したんだ。

さらに、データを拡張することで、モデル全体の性能が大幅に向上したことも分かったよ。サンプルが多いほど、モデルの精度が高まる傾向があって、効果的なトレーニングのために多様で高品質なデータを生成することが重要であることが強調されたんだ。

生成サンプルの多様性

私たちの評価で重要な側面の一つは、生成された脆弱なサンプルの多様性を分析することだよ。多様なデータセットは、効果的なモデルをトレーニングするために不可欠なんだ。生成したサンプルのエントロピーレベルを既存の方法のものと比較することで、私たちのアプローチがより多様な脆弱なコードスニペットを作り出したことを確認したよ。このより大きな多様性は、トレーニングされたモデルの一般化能力を向上させ、さまざまなコンテキストで脆弱性をより正確に検出できるようにするんだ。

私たちの実験では、インジェクションとエクステンション戦略が高品質なサンプルを提供するだけでなく、脆弱性が発生する文脈も豊かにしていることが示されたよ。この二重の利点は、実際のシナリオを扱うことのできる堅牢なモデルをトレーニングするために重要だね。

コスト分析

私たちのアプローチで重要なのは、脆弱なサンプルを生成するためのコスト効率なんだ。一定数の拡張サンプルを生成するのに必要な時間とリソースを計算したよ。私たちの調査結果では、1,000の脆弱なサンプルを生成するのに約1.88ドルかかることが分かったよ。この低コストのモデルは、データ拡張プロセスをスケールアップし、既存のデータセットを大幅に強化することを可能にするんだ。

私たちの方法を使えば、Devignのようなデータセットのサイズを大幅に増やしても、かなりの費用がかからないよ。高品質なデータを手頃な価格で生成できる能力は、ソフトウェアの脆弱性検出に取り組んでいる人たちにとって大きな利点だね。

妥当性に対する脅威

私たちの結果は有望だけど、考慮すべき妥当性の脅威があることは否定できないよ。大きな懸念の1つは、実験に使ったモデルのハイパーパラメータ設定だよ。脆弱性の検出は複雑なタスクで、これらの設定を変えることで異なる結果が出るかもしれない。でも、私たちは比較の公正さを確保するために、全てのモデルで一貫した設定を維持したんだ。

もう1つの懸念は、LLMがプロンプトに正確に従うことへの依存だよ。生成されたコードの品質向上のためにフィルターを使ったけど、誤ったり意味不明なサンプルが生成される可能性もあるんだ。このリスクを軽減するために、複数回のプロンプトを用意して、質の低い応答に対する安全網を提供するようにしたよ。

全体として、私たちのアプローチには潜在的な制限があることを認識しているけど、データ拡張を通じた脆弱性検出の重要な一歩を示していると信じているよ。

結論

この記事では、高度な言語モデルを使って脆弱なデータセットを拡張する新しい戦略を紹介したよ。「ミューテーション」、「インジェクション」、そして「エクステンション」のような方法を実装することで、多様で有用なサンプルを生成して脆弱性検出モデルの効果を高めることができるんだ。私たちの評価では、従来の方法に比べてこれらのアプローチの明らかな利点が示されて、特にトレーニングデータの多様性の重要性が強調されたよ。

大量の高品質データをコスト効果的に生成するための解決策を持っていることで、私たちの戦略がソフトウェア脆弱性検出プロセスの改善に意味のある影響を与えると信じているよ。私たちの研究は、この分野における将来の努力の基礎を提供して、さらに脆弱性検出の能力を向上させることができる高度なモデルや技術の探索を促進していくつもりなんだ。

ソフトウェア開発の環境がますます複雑になる中、脆弱性を特定して緩和するための効果的なツールは引き続き重要だよ。この記事で説明した方法は、より堅牢で効率的な脆弱性検出システムへの道を開き、最終的には安全でよりセキュアなソフトウェア環境に貢献するんだ。

オリジナルソース

タイトル: Exploring RAG-based Vulnerability Augmentation with LLMs

概要: Detecting vulnerabilities is vital for software security, yet deep learning-based vulnerability detectors (DLVD) face a data shortage, which limits their effectiveness. Data augmentation can potentially alleviate the data shortage, but augmenting vulnerable code is challenging and requires a generative solution that maintains vulnerability. Previous works have only focused on generating samples that contain single statements or specific types of vulnerabilities. Recently, large language models (LLMs) have been used to solve various code generation and comprehension tasks with inspiring results, especially when fused with retrieval augmented generation (RAG). Therefore, we propose VulScribeR, a novel LLM-based solution that leverages carefully curated prompt templates to augment vulnerable datasets. More specifically, we explore three strategies to augment both single and multi-statement vulnerabilities, with LLMs, namely Mutation, Injection, and Extension. Our extensive evaluation across three vulnerability datasets and DLVD models, using two LLMs, show that our approach beats two SOTA methods Vulgen and VGX, and Random Oversampling (ROS) by 27.48%, 27.93%, and 15.41% in f1-score with 5K generated vulnerable samples on average, and 53.84%, 54.10%, 69.90%, and 40.93% with 15K generated vulnerable samples. Our approach demonstrates its feasibility for large-scale data augmentation by generating 1K samples at as cheap as US$ 1.88.