グラフにおける不均衡ノード分類の対処
新しいモデルGraphSANNは、不均衡なノード分類の課題に効果的に対処するよ。
― 1 分で読む
多くの現実世界のネットワークには、不均衡なノード分類という問題があって、いくつかのカテゴリーのノードにはたくさんの例があるのに対して、他のカテゴリーにはほとんど例がないことがある。この不均衡は、データをグラフとして分析するグラフニューラルネットワークを使うときに問題を引き起こすことがある。これらのネットワークは、マイノリティクラスと呼ばれるあまり一般的でないカテゴリーを特定するのが苦手で、メジャリティクラスがトレーニングデータを支配し、マイノリティノードの分類で弱いパフォーマンスを引き起こす。
不均衡なノード分類の課題
不均衡なノード分類はさまざまなシナリオでよく見られる。たとえば、オンラインバンキングでは、ほとんどのユーザーは普通の顧客だけど、ごく少数が詐欺師だったりする。また、化学構造においても、重い原子と比べて軽い原子が多いことが一般的だ。グラフニューラルネットワークは、大きなクラスに強く影響されるため、小さなクラスから効果的に学ぶのが難しい。
問題への対処
研究者たちは、この問題に対処するためにいくつかの方法を開発している。一般的なアプローチの一つは、クラスの分布をバランスよくするために合成ノードやエッジを作ることだ。例えば、SMOTE(Synthetic Minority Over-sampling Technique)のような手法を使って、既存のマイノリティクラスノードの特徴に基づいて新しい合成ノードを生成する方法がある。これらの手法は期待される結果を示しているけど、同じクラスラベルを持つノードがつながる可能性が高いという仮定に基づいている。この仮定(ホモフィリーの仮定)は、多くの現実のシナリオでは通用しなくて、異なるクラスのノードが接続することもある。
ヘテロフィリーの現実
多くのネットワークでは、異なるクラスが予想外の方法で接続することがある。例えば、金融ネットワークでは、詐欺師が普通の顧客とつながりを持ち続けて行動を隠すことがある。これにより、異なるクラスのノードを接続するヘテロフィリックエッジが存在する。既存のほとんどの手法は、これらのヘテロフィリックグラフに適用するときに苦労していて、いくつかの重要な問題を引き起こす。
限られた多様性: 多くのアプローチは、同じマイノリティクラスから厳密に合成ノードを生成する。これが原因で、多くの場合、実際のマイノリティクラスノードが少ないときに多様性が欠けることになる。
特徴類似性の問題: エッジを構築する時、多くの手法がノードの特徴の類似性に頼るが、これはホモフィリックエッジに対してはうまくいくが、ヘテロフィリックエッジには失敗することがある。これが原因で、結果を歪める不正確な構造が生じることがある。
雑音情報の集約: 現在の手法は、すべての種類の接続から均一に情報を集約することが多い。これが原因で、異なる隣接ノードからの無関係な情報が入ってきて、ノードの埋め込みの質が低下することがある。
新しいアプローチ:GraphSANN
この問題に対処するために、我々は不均衡なノード分類のための新しいモデル、GraphSANNを提案する。GraphSANNの目標は、ホモフィリックグラフとヘテロフィリックグラフの両方で効果的に機能することだ。我々のアプローチは、主に3つの部分から構成されている。
統一された特徴ミキサー: このコンポーネントは、バランスよく類似ノードと異なるノードの特徴を混ぜることで合成ノードを生成する。
アダプティブサブグラフエクストラクター: 固定された隣接ノードに頼るのではなく、接続の関連性に基づいて周囲のノードに適応してサブグラフを構築する部分。
マルチフィルターサブグラフエンコーダー: このセクションは、類似したノード接続と異なるノード接続からのメッセージを区別してサブグラフをエンコードし、正確なエッジ存在予測を可能にする。
主な貢献
この研究の主な貢献は以下の通り:
- 不均衡なノード分類に取り組むためにホモフィリック仮定を超えたモデルを導入。
- ホモフィリックエッジとヘテロフィリックエッジの両方を含む合成接続を生成することで、グラフのバランスを取る能力のある手法を開発。
- 幅広いテストを通じて、GraphSANNがさまざまな不均衡データセットで既存のモデルを上回ることを示す。
関連研究
ヘテロフィリックグラフニューラルネットワーク
現在のほとんどのグラフニューラルネットワークは、接続されているノードが同じクラスラベルを共有することを前提としている(ホモフィリー)。しかし、このような仮定は、重要なヘテロフィリーを持つネットワークではパフォーマンスが悪化する。研究者たちはヘテロフィリック接続に対応するいくつかのモデルを提案している。これらは主に2つのタイプに分類できる。
隣接拡張手法: これらの手法は、より遠くて関連性のあるノードからの特徴を取り入れられるようにローカルな隣接を拡大する。たとえば、いくつかのモデルはネットワーク内の複数のホップから情報を集めて構造のより良い視点を提供する。
アダプティブメッセージ集約手法: これらのアプローチは、ホモフィリックとヘテロフィリックリンクの両方から学習できる柔軟な集約手法を作成する。通常、さまざまな隣接ノードからの信号の重要性を重視するために注意メカニズムを使用する。
不均衡なノード分類手法
不均衡なノード分類に対処する方法は、大きく分類して一般的な手法とネットワーク特有の手法に分けられる。
一般的な手法: これらの技術は、伝統的なクラス不均衡戦略をグラフニューラルネットワークに統合する。単純な手法では、既存のマイノリティノードの表現をオーバーサンプリングすることがあるが、コスト感受性アプローチでは、クラス分布に基づいて損失の重みを再調整する。
ネットワーク特有の手法: これらは、グラフの構造を考慮して合成ノードを作り接続を決定する。一部の高度な手法は、クラス分離を改善するために対抗訓練を利用し、別の手法ではマイノリティクラスのためのエゴネットワーク全体を合成する。
さまざまな努力にもかかわらず、これらのモデルのほとんどはホモフィリーの仮定に依存しており、ヘテロフィリックネットワークに苦労している。
問題定義
グラフのホモフィリーとヘテロフィリー
グラフ用語では、ホモフィリーは類似したノードが接続する傾向を指し、ヘテロフィリーは異なるタイプのノードも接続されることを意味する。ほとんどのグラフには、両方のタイプの接続が見られる。グラフにおけるホモフィリーとヘテロフィリーの度合いを定量的に測定して、その構造をよく理解できる。
取り組むべき課題
不均衡なノード分類のタスクを、接続の分布に関わらずメジャリティクラスとマイノリティクラスの両方を効果的に分類できるモデルを学習することとして定義する。目標は、高いヘテロフィリーに直面してもよく一般化できるノード分類器を作ることだ。
GraphSANNモデル
GraphSANNモデルは、以前のアプローチで特定された問題をそれぞれ解決するために、3つの主要な部分から成る。
統一された特徴ミキサー
統一された特徴ミキサーは、類似ノードと異なるノードの特徴を混ぜ合わせて合成マイノリティノードを生成する。この手法は、混合するノードのペアを選ぶことから始める。さまざまなクラスのノードを含めることで、生成される合成ノードの多様性を高めることを目指している。混合プロセスでは、分類器を誤解させるような特徴を導入しないようにする。
アダプティブサブグラフエクストラクター
合成ノードを生成した後、アダプティブサブグラフエクストラクターは、これらの新ノードと既存のグラフとの接続を特定する。固定された隣接ノードに頼るのではなく、潜在的なエッジの周囲を評価して、エッジの存在を予測するときにモデルがより広い範囲の接続を考慮できるようにする。
マルチフィルターサブグラフエンコーダー
マルチフィルターサブグラフエンコーダーは、抽出したサブグラフを処理し、有意義な類似性を持つノードからの情報を集めることに焦点を当てる。異なるタイプの信号のために別々のチャネルを作成することで、ホモフィリックとヘテロフィリック接続の両方に関連する情報をより効果的に集約できる。
最適化目標
GraphSANNモデルには、最適化のための2つの主要なタスクがある。
隣接行列の再構築: この部分では、グラフ内にどのエッジが存在すべきかを予測し、モデルが元のエッジと合成エッジの両方を識別できるように学習する。
ノード分類: グラフ構造が確立されたら、モデルは特徴に基づいてノードを分類し、メジャリティクラスとマイノリティクラスの両方を認識する。
実験セットアップ
データセット
GraphSANNモデルを評価するために、8つのベンチマークデータセットを使用する。これには、高いホモフィリーを持つ3つの引用ネットワークと、高いヘテロフィリーを特徴とする3つのウィキペディアネットワークが含まれる。また、クラス分布の不均衡が本物であると知られる2つのアマゾン製品ネットワークも利用する。
ベースライン
不均衡なノード分類のためにGraphSANNと8つの最先端のベースラインを比較する。この比較には、普通のモデルと、クラス不均衡を扱うために設計されたより専門的な方法が含まれる。
評価指標
モデルのパフォーマンスを評価するために、正確性、AUC-ROC、Macro-F1スコアを使用する。これらの指標は、特にマイノリティグループに焦点を当てて、すべてのクラスでのモデルのパフォーマンスを捉えるのに役立つ。
結果と考察
パフォーマンス比較
テストでは、GraphSANNがさまざまなデータセットで他のモデルを一貫して上回った。このことは特に、高いヘテロフィリーを持つネットワークで顕著で、そこでは多くのベースライン手法がパフォーマンスを維持できなかった。
不均衡比の影響
GraphSANNは、不均衡のさまざまなレベルで堅牢なパフォーマンスを示した。不均衡比が増加するにつれて、メジャリティクラスとマイノリティクラスの間の不均衡が大きくなることを示しつつ、GraphSANNは優位性を維持した。
コンポーネントの寄与
アブレーションスタディでは、GraphSANNの各コンポーネントの重要性が明らかになった。重要な部分のいずれかを削除するとパフォーマンスが低下することが確認され、各部分が全体の効果に独自に寄与していることが確認できた。
パラメータ感度
モデルが主要なハイパーパラメータの変化にどれだけ敏感かを分析した。たとえば、ドロップアウト率が増加すると、モデルのパフォーマンスは改善し、ピークに達した後はパフォーマンスが低下した。同様に、候補エッジのサンプリング比の変動もパフォーマンスに影響を与えた。
ノード埋め込みの視覚化
GraphSANNによって生成されたノード埋め込みと他のモデルの埋め込みを視覚化すると、GraphSANNがクラス間に明確な分離を生み出したことが分かった。対照的に、ほとんどのベースラインモデルの埋め込みは、特にマイノリティクラスのために混在した領域を示した。
結論
要するに、GraphSANNは不均衡なノード分類の分野において重要な進展を表している。ホモフィリックとヘテロフィリック接続の両方によって引き起こされる課題に効果的に対処することで、モデルは既存の手法よりも優れたパフォーマンスを示している。さまざまなデータセットにわたる実験はその効果を確認しており、多様な不均衡ネットワークにおける将来の研究や応用の道を切り開いている。
今後の研究
GraphSANNは大きな可能性を示しているが、まだ多くの探求すべき領域がある。今後の研究では、ノードやエッジを合成するための追加の戦略を調査したり、さらなるパフォーマンス向上のためにモデルを最適化したり、複雑なネットワークダイナミクスを特徴とするリアルワールドシナリオでフレームワークを適用したりすることが考えられる。
これらの技術をさらに洗練させ続けることで、さまざまな困難な文脈でノードを分類する能力を向上させ、グラフニューラルネットワークの分野を進展させることができる。
タイトル: Imbalanced Node Classification Beyond Homophilic Assumption
概要: Imbalanced node classification widely exists in real-world networks where graph neural networks (GNNs) are usually highly inclined to majority classes and suffer from severe performance degradation on classifying minority class nodes. Various imbalanced node classification methods have been proposed recently which construct synthetic nodes and edges w.r.t. minority classes to balance the label and topology distribution. However, they are all based on the homophilic assumption that nodes of the same label tend to connect despite the wide existence of heterophilic edges in real-world graphs. Thus, they uniformly aggregate features from both homophilic and heterophilic neighbors and rely on feature similarity to generate synthetic edges, which cannot be applied to imbalanced graphs in high heterophily. To address this problem, we propose a novel GraphSANN for imbalanced node classification on both homophilic and heterophilic graphs. Firstly, we propose a unified feature mixer to generate synthetic nodes with both homophilic and heterophilic interpolation in a unified way. Next, by randomly sampling edges between synthetic nodes and existing nodes as candidate edges, we design an adaptive subgraph extractor to adaptively extract the contextual subgraphs of candidate edges with flexible ranges. Finally, we develop a multi-filter subgraph encoder that constructs different filter channels to discriminatively aggregate neighbor's information along the homophilic and heterophilic edges. Extensive experiments on eight datasets demonstrate the superiority of our model for imbalanced node classification on both homophilic and heterophilic graphs.
著者: Jie Liu, Mengting He, Guangtao Wang, Nguyen Quoc Viet Hung, Xuequn Shang, Hongzhi Yin
最終更新: 2023-04-28 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2304.14635
ソースPDF: https://arxiv.org/pdf/2304.14635
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。