Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算工学、金融、科学# 機械学習

購入プロセスにおける異常検出の強化

この研究は、調達取引の異常検出を改善する方法を探ってるよ。

― 1 分で読む


調達における異常検知調達における異常検知効果的な監査のための機械学習の活用。
目次

今日の世界では、多くのビジネスがデジタルプロセスに移行してるよ。このシフトは、企業が大量のデータを集めて分析することを意味してるんだ。でも、このデータには、詐欺や非効率を示す予期しない行動や不規則性を見つける課題もあるんだ。それに対処するために、企業は監査を行ったり、内部監査員や購買の専門家に新しいプロセス改善の方法を探させたりしてる。

この作業の目的は、2つの大企業からの実際の購入データに見つかった異常を調査する優先順位をつける方法を提案することなんだ。この方法は、企業が監査プロセスを改善して、もっと効率的にするのを助けることを目指してるよ。機械学習技術を適用する前に、研究者たちはデータをもっとよく理解するために徹底的な探索的データ分析を行ったんだ。その後、いくつかの教師なし機械学習技術を使って異常を特定したんだ。

内部監査プロセス

企業の内部監査部門は、さまざまなプロセスが正しく効果的で、内部ポリシーを遵守し、リスクを最小限に抑えるために重要な役割を果たしてるんだ。内部チームは、監査人が情報を集め、インタビューを行い、発見を支持する証拠を追跡する定義されたエンゲージメントを通じて定期的に監査を実施してる。

通常、監査はサンプリングに頼っていて、つまり全データのうち小さな部分だけがレビューされるんだ。この方法は、選ばれたサンプルに重要な情報が含まれない「サンプリングリスク」を引き起こす可能性があるよ。データ量が増えるにつれて、この伝統的なサンプリングアプローチは効果が薄れて、重要な情報が見逃されるリスクが増していくんだ。

購買プロセスでは、異常を特定することが特に重要だよ。内部監査員や購買マネージャーは、支出を監視し、詐欺を含む、会社のポリシーに反する行動を検出する方法を見つける必要があるんだ。目標は、怪しい取引に焦点を当てられるようにプロセスを自動化することなんだ。

データ分析の役割

データ分析は、組織が大量の情報を管理し、制御するのを助ける重要な役割を果たしてる。さまざまなアルゴリズム、特に機械学習に関連するものが、構造化データと非構造化データの両方から貴重な洞察を引き出すのに効果的だって知られてるんだ。機械学習は監査のやり方を変えてきて、企業がコントロールを維持するために使うツールの不可欠な部分になってるよ。

固定ルールに基づく従来の監査の主な課題の一つは、主に知られたエラーや逸脱を見つけることだよ。一方で、機械学習アルゴリズムは膨大なデータを分析して予期しない異常、ミス、あるいは詐欺を明らかにできるんだ。多くの機械学習アプローチは、ラベル付きデータから学習する「教師あり学習」に基づいているけど、内部監査ではこれらのラベルが不足してることが多いんだ。

外部監査では、データ構造が異なる企業間で似ている傾向があるから、教師あり機械学習モデルのトレーニング用ラベルを取得するのが簡単なんだ。でも、内部監査ではラベルなしデータが一般的だから、教師なしアルゴリズムがこの文脈ではより良い選択肢なんだ。似たデータポイントをグループ化するクラスタリング技術は、異常を検出することに成功してるよ。

購買プロセス

購買は、企業が他の会社から製品やサービスを取得する重要なビジネス機能なんだ。このプロセスでは、取引の効率を評価したり、支出を監視したりできるんだ。購買と調達を区別することが重要で、調達は交渉やリサーチのような戦略にもっと焦点を当てているんだ。

購買プロセスの効果的な管理は、詐欺や不正支出などの問題を防ぐために重要なんだ。それには、すべての取引の詳細な文書化が必要で、すべてが適正であることを確認する必要があるよ。

異常検出の理解

異常検出は、データセットのノルムから大きく異なるデータポイント、つまりアウトライヤーを特定するプロセスを指すんだ。これらのアウトライヤーは、さらなる調査が必要な問題を示している可能性があるから、フラグを立てられるんだ。異常を検出するための技術は、分類、回帰、クラスタリングなどいくつかあるよ。

異常は3つのタイプに分類できるよ:

  1. ポイント異常: 他のデータと合わない個々のデータポイント。
  2. 文脈異常: 特定の文脈内でだけ異常とみなされるデータポイント。
  3. 集合異常: すべてが一緒に異常と見なされる関連するデータポイントのグループ。

異常を検出する技術

異常を検出するためのさまざまな技術があって、以下のように分類できるよ:

統計的手法

統計的手法は、データの分布をモデル化して、このモデルにうまく適合しないポイントを特定するんだ。たとえば、アウトライヤーはデータの典型的な値からどれだけ遠く離れているかに基づいて検出できるんだ。

データサイエンスアプローチ

アウトライヤー検出は、アウトライヤーが一般的に示す特定の特徴を用いることでもできるよ。これには:

  • 距離ベース: アウトライヤーは通常、他のポイントから遠く離れているんだ。近隣に対する平均距離を測定することで、これらの異常を見つけられるよ。
  • 密度ベース: この方法は、データポイントがどれだけ密に詰まっているかを見るんだ。アウトライヤーは低密度の領域に存在することが多いんだ。
  • クラスタリング技術: アウトライヤーは、クラスタに属さないポイントや非常にまばらなクラスタに属するポイントかもしれないんだ。

分類技術

ラベル付きデータが利用可能な場合、分類モデルを構築して異常を検出できるよ。でも、ラベル付きデータを取得するのはしばしば課題なんだ。

各検出技術にはパラメータがあるから、一つの方法でアウトライヤーとマークされたポイントが別の方法ではそう認識されないこともあるんだ。だから、ラベルを決定する前に複数の方法を使うことが勧められるよ。

使用された異常検出方法

この研究で使用された主な異常検出方法には以下が含まれるよ:

k-平均クラスタリング

k-平均クラスタリングは、データを設定された数のクラスタにグループ化するんだ。これは最もシンプルな方法の一つで、各クラスタの中心点を見つけることに焦点を当てているよ。k-平均法の効果は、合計二乗誤差(SSE)や、クラスタがどれだけうまく分離されているかを示すシルエット係数などのさまざまな指標を使って評価されるんだ。

アイソレーションフォレスト

アイソレーションフォレストアルゴリズムは、異常が通常はまれで、通常のデータポイントとは異なる属性値を持つという理解に基づいているんだ。異常を孤立させるためにツリー構造を使用して、孤立が容易なインスタンスがアウトライヤーである可能性が高いんだ。

データ収集と準備

この分析のためのデータは、多国籍グループ内の2つの企業から集められたもので、2021年の実際の調達取引に焦点を当てているよ。機密性の懸念から、データセットから特定の識別子が削除されたんだ。

初期データセットには65,712件のレコードがあり、17列だったよ。データ分析の準備のために、カテゴリー特徴を数値に変換するなどのデータクリーニングと変換プロセスが実施されたんだ。

単変量異常検出

初期分析を行うために、データ内の単変量アウトライヤーをフラグするためにいくつかの技術が使用されたよ:

  • IQRメソッド: 取引の値が四分位範囲(IQR)の外にあれば、アウトライヤーとしてフラグされたんだ。
  • zスコア: zスコアが2.5を超える取引がアウトライヤーとして特定されたよ。
  • DBSCAN: 取引は、コアポイントから一定の距離内に隣接者がいないことに基づいてフラグが立てられた。
  • アイソレーションフォレスト: この方法もアウトライヤーを特定するために使用されたんだ。

これらの方法を試した後、zスコアとDBSCAN技術の組み合わせがさらなる分析のために選ばれたよ。これは補完的な視点を提供してくれたからなんだ。

多変量異常検出

次のフェーズでは、より広い視点から異常を検出するために複数のアルゴリズムを適用したよ。k-平均モデルがデータセットに適用され、単変量アウトライヤーが組み込まれたんだ。

エルボー法とシルエット分析を利用して最適なクラスタ数を決定したんだけど、クラスタリングの質の指標が良くなかったから、単変量アウトライヤーを除外してプロセスを繰り返したんだ。

異常検出の結果

クラスタリングの結果、k-平均が生成した最も適切なモデルは、一般的なクラスタリング指標に従って良好な質を示さなかったんだ。単変量異常をフィルターしても、特に大きな改善は見られなかったよ。

アイソレーションフォレスト法がデータセット全体にわたって異常を予測するために適用されたんだ。データセットはラベルなしだったから、予測スコアに基づいてどの取引を異常としてフラグを立てるべきかを決めるために閾値が設定されたんだ。

異常の優先順位付け

検出された異常を優先順位付けするために、クラスタリング技術に基づく特定の基準が設定されたよ。これには、異常グループにどれだけ属しているかに基づいて取引を整理することが含まれてるんだ。結果は、専門家が最も重要なケースに焦点を当てやすいように配置されたんだ。

モデルの解釈性

解釈可能な機械学習手法が異常検出プロセスの結果を説明するために探求されたんだ。SHAPやLIMEのようなツールがテストされて、特定の取引が異常としてフラグされた理由についての洞察を提供してるよ。このステップは、ビジネスの専門家がフラグ立てされた取引の根本的な理由を理解するのに重要なんだ。

結論

要するに、購入データセットでの異常を検出するために機械学習技術を適用することは、監査プロセスにおける詐欺検出のための貴重なツールを提供するんだ。単変量および多変量アプローチを含む複数の異常検出方法の組み合わせは、内部監査人にとって意味のある洞察を提供するよ。

結果は、クラスタの質にまだ改善の余地があることを示していて、今後の作業では他のエンコーディングオプションのテストや、時間ベースの行動の分析、クラスタリング方法の拡張に取り組む予定なんだ。

KNIMEのようなツールの使用は、さまざまな機械学習技術の実施を簡素化して、重要なプロセスを自動化するのを容易にしてるんだ。今後、この研究で提案された方法を展開すれば、調達プロセスでの異常をより広範囲に検出する能力が向上するよ。

オリジナルソース

タイトル: Applied Machine Learning to Anomaly Detection in Enterprise Purchase Processes

概要: In a context of a continuous digitalisation of processes, organisations must deal with the challenge of detecting anomalies that can reveal suspicious activities upon an increasing volume of data. To pursue this goal, audit engagements are carried out regularly, and internal auditors and purchase specialists are constantly looking for new methods to automate these processes. This work proposes a methodology to prioritise the investigation of the cases detected in two large purchase datasets from real data. The goal is to contribute to the effectiveness of the companies' control efforts and to increase the performance of carrying out such tasks. A comprehensive Exploratory Data Analysis is carried out before using unsupervised Machine Learning techniques addressed to detect anomalies. A univariate approach has been applied through the z-Score index and the DBSCAN algorithm, while a multivariate analysis is implemented with the k-Means and Isolation Forest algorithms, and the Silhouette index, resulting in each method having a transaction candidates' proposal to be reviewed. An ensemble prioritisation of the candidates is provided jointly with a proposal of explicability methods (LIME, Shapley, SHAP) to help the company specialists in their understanding.

著者: A. Herreros-Martínez, R. Magdalena-Benedicto, J. Vila-Francés, A. J. Serrano-López, S. Pérez-Díaz

最終更新: 2024-05-23 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2405.14754

ソースPDF: https://arxiv.org/pdf/2405.14754

ライセンス: https://creativecommons.org/licenses/by-sa/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

類似の記事