Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 機械学習# 暗号とセキュリティ

TraVaG: プライバシーに配慮したプロセスマイニングの新しいアプローチ

プロセスマイニングでデータの価値を失わずにプライバシーを守る方法。

― 1 分で読む


TraVaGはプロセスマイTraVaGはプロセスマイニングのプライバシーを強化する。力な方法。プロセスマイニングでデータを守るための強
目次

プロセスマイニングは、さまざまなシステムから生成されるイベントデータを分析することで、ビジネスがプロセスを理解し改善するのに役立つ方法だよ。でも、データが増えるにつれてプライバシーの懸念も出てくる。組織は、プロセスマイニングの恩恵を受けつつ、敏感な情報を守る方法を見つける必要があるんだ。

今は、多くのプライバシー技術が差分プライバシーみたいに個人のアイデンティティを守るためにデータにノイズを加える強力な保証を提供することに焦点を当てているけど、既存の方法はあまり頻繁に現れないトレースバリアントに対処するのが難しいんだ。だから敏感な情報のプライバシーを維持するのが難しい。

この課題に取り組むために、TraVaGを紹介するよ。これは、生成的敵対ネットワーク(GAN)を使ってイベントデータの差分プライベートトレースバリアントを作成する新しいアプローチなんだ。この方法は、データのユーティリティをあまり損なわずに、業界の実際のニーズとプライバシーのバランスをとることを目指している。

背景

プロセスマイニングは、ビジネスプロセスで発生する活動の記録であるイベントデータに依存している。このログは、プロセスが現実の状況でどのように動いているかを明らかにする重要なものだよ。組織がプロセスマイニングを導入するにつれて、データに個人に関する敏感な情報が含まれる可能性があるから、プライバシーが重要な懸念事項になる。

プライバシー法(例えばGDPR)は、個人データの保存と処理に関する厳しいルールを強制している。そのため、組織はプライバシー技術の向上に努めることになっている。一般的に使用される差分プライバシーの方法は、データにランダムなノイズを追加して個人の関与をぼかすように設計されている。これにより、たとえ誰かがデータにアクセスしても、特定の人物を簡単に特定できないようになっている。

とはいえ、既存の方法は複雑なプロセスに依存していることが多く、フェイクデータを生成したり、重要な本物のデータを削除したり、データシーケンスの長さを制限したりする問題を引き起こすことがある。これは特に希少なトレースバリアントを扱う際にデータの有用性を維持するのが難しいことにつながる。

TraVaGアプローチ

TraVaGは、GANを使用してプライベートトレースバリアントを生成しながら、生成されたデータが有用であることを保証することで、現在の方法の限界を克服するように設計されている。中心的なアイデアは、イベントデータの本質的な特徴をプライベートに学ぶことだよ。

TraVaGでは、GANがオリジナル情報と非常に似た新しい合成データを作成するのを助ける。GANは2つの部分から成り立っていて、フェイクデータを生成するジェネレーターと、そのデータが本物かフェイクかを評価するディスクリミネーターがある。この2つのネットワークをお互いにトレーニングすることで、ジェネレーターはオリジナルデータに直接アクセスすることなく、オリジナルデータに似たデータを生産することを学んでいくんだ。これにより、プライバシー保護手法で通常絡む計算の複雑さが減る。

さらに、TraVaGは「差分プライベート - 確率的勾配降下法」(DP-SGD)という技術を使用して、ジェネレーターとディスクリミネーターのトレーニングを最適化しつつプライバシーも守っているよ。これによって、元のデータに多くのユニークなトレースバリアントがあっても、TraVaGは元のデータの特徴が損なわれる心配をせずに多くの匿名化されたバージョンを生成できるんだ。

TraVaGの利点

TraVaGの主な利点の一つは、業界規模のイベントデータを扱う能力だよ。多くの異なる匿名化トレースバリアントを生成できるから、組織はプロセスを分析しながら個人のプライバシーを保護することができる。

さらに、TraVaGはデータに存在する本物のトレースに焦点を当てているから、フェイクデータ生成から生じる不正確さを導入する可能性が低い。

加えて、オートエンコーダを組み込むことで、TraVaGはデータをGANで処理する前により簡単な形式に圧縮できる。このステップは複雑さを減らし、GANが重要な詳細を失うことなくデータの特徴を学ぶのを容易にする。

TraVaGの実験

TraVaGの効果を試すために、実際のイベントログを使って実験が行われたよ。目標は、プライバシーの保証とデータのユーティリティ保護に関して、TraVaGが他の既存の方法と比較してどれだけうまく機能するかを確認することだった。

2つの異なるイベントログが使用された:一つは敗血症患者のための病院プロセスに関連するもので、もう一つはビジネスのインシデント管理に関するもの。これらのログは、含まれるトレースのユニークさに関して異なっていた。敗血症のログには多くの希少なバリアントが含まれていて、ビジネスのログにはより頻繁なトレースがあった。

TraVaGは、強力なプライバシー保護を確保しつつデータの有用性を維持する能力に基づいて評価されたよ。結果は、TraVaGが従来の方法を上回り、特にデータの有用性を保ちながらも重要なプライバシー保証を提供する点で優れていることを示した。

結果の分析

実験の結果は、TraVaGが元のデータ分布を反映した匿名化されたイベントログを生成するのに成功していることを示している。具体的には、ノイズとGANプロセスを使って個人のプライバシーが守られつつ、オリジナルのログに対する高い類似度を維持しているんだ。

最先端の他の方法と比較して、TraVaGはオリジナルのデータ特性を反映した結果を生成するのにより効果的で、過剰なノイズやフェイクバリアントを生成しない。これにより、TraVaGはデータのユーティリティとプライバシーのバランスを求める組織にとって適した選択肢となる。

結論

まとめると、組織がさまざまなアプリケーションのためにプロセスマイニングを採用し続ける中で、効果的なプライバシー保護技術の必要性がますます重要になってきている。従来の方法は、頻繁に現れないトレースバリアントによって生じる複雑さに対処するのが難しくて、データに不正確さをもたらすことがある。

TraVaGは、重要な情報を失うことなく差分プライベートトレースバリアントを生成するためにGANを活用することで、これらの課題に対処しているよ。データの統計的特性に焦点を当て、DP-SGDのような革新的な技術を取り入れることで、TraVaGは業界のニーズを満たしつつプライバシーを確保する高品質な匿名化データを生成できる。

実施された実験は、TraVaGが既存の技術を上回っていることを示していて、プライバシー保護プロセスマイニングの未来に向けた有望な解決策になりそうだね。ビジネスがデータ分析を通じてプロセスを改善しようとする中で、TraVaGのような効果的なプライバシー保護技術を採用することが、進化するデジタル環境での信頼とコンプライアンスを維持するために重要になるだろう。

オリジナルソース

タイトル: TraVaG: Differentially Private Trace Variant Generation Using GANs

概要: Process mining is rapidly growing in the industry. Consequently, privacy concerns regarding sensitive and private information included in event data, used by process mining algorithms, are becoming increasingly relevant. State-of-the-art research mainly focuses on providing privacy guarantees, e.g., differential privacy, for trace variants that are used by the main process mining techniques, e.g., process discovery. However, privacy preservation techniques for releasing trace variants still do not fulfill all the requirements of industry-scale usage. Moreover, providing privacy guarantees when there exists a high rate of infrequent trace variants is still a challenge. In this paper, we introduce TraVaG as a new approach for releasing differentially private trace variants based on \text{Generative Adversarial Networks} (GANs) that provides industry-scale benefits and enhances the level of privacy guarantees when there exists a high ratio of infrequent variants. Moreover, TraVaG overcomes shortcomings of conventional privacy preservation techniques such as bounding the length of variants and introducing fake variants. Experimental results on real-life event data show that our approach outperforms state-of-the-art techniques in terms of privacy guarantees, plain data utility preservation, and result utility preservation.

著者: Majid Rafiei, Frederik Wangelik, Mahsa Pourbafrani, Wil M. P. van der Aalst

最終更新: 2023-03-29 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2303.16704

ソースPDF: https://arxiv.org/pdf/2303.16704

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事