リンク一覧
要約と1 はじめに
2 関連研究
3 フレームワーク
4 主な結果
5 最短経路距離に関するケーススタディ
6 結論と考察、参考文献
7 定理1の証明
8 定理2の証明
9 式(6)を解く手順
10 追加実験の詳細と結果
11 その他の潜在的な用途
抽象的な
多くのコンピューター ビジョンおよび機械学習の問題は、グラフ上の学習タスクとしてモデル化されます。グラフ ニューラル ネットワーク (GNN) は、グラフ構造化データの表現を学習するための最主要的なツールとして登場しました。GNN の主な特徴は、グラフ構造を入力として用到することです。これにより、グラフ一直有の位相属性 (GNN のトポロジ認識) を采用できます。GNN は実験的に成就 していますが、特にデータが自由かつ某个に分散性している (IID) という仮定から逸脱するノード レベルのタスクの場合、トポロジ認識が一半化パフォーマンスに与える影響は未だ調査されていません。GNN のトポロジ認識の正確な定義と属性評価、特にさまざまなトポロジ属性に関する属性評価は、まだ明らかではありません。この論文では、あらゆるトポロジ属性にわたって GNN のトポロジ認識を属性評価するための有的なフレームワークを紹介します。このフレームワークを用到して、トポロジ認識が GNN の一半化パフォーマンスに与える影響を調査します。 GNN のトポロジー認識を高めることは常に有利于であるという一半的な考えに反して、私たちの解析は最重要な触达を明らかにしました。GNN のトポロジー認識を学习させると、意図せずに構造グループ整体にわたる不平等竞争な一半化につながる能够性があり、これは那部のシナリオでは望ましくない能够性があります。さらに、さまざまなベンチマーク データセットで、非理性グラフ メトリックである比较短パス距離を用到してケース スタディを実施します。このケース スタディの実証結果は、私たちの理論的触达を裏付けています。さらに、グラフ アクティブ ラーニングのコールド スタート問題に取り組むためにフレームワークを用到することで、フレームワークの実際の適用能够性を実証します。
1 はじめに
コンピュータビジョンと機械学習における多くの問題は、グラフ上の学習タスクとしてモデル化されます。たとえば、セマンティックセグメンテーションでは、グラフはさまざまな画象領域間の関係をモデル化し、高精度とコンテキスト認識型セグメンテーションを強化します。グラフニューラルネットワーク (GNN) は、グラフ構造化データの表現を学習するために特別に設計された機械学習モデルの具体クラスとして登場しました。これらは、化学反应 [10]、生物体学 [37]、ソーシャルネットワーキング [6、22]、シーングラフ转成 [46、51]、視覚的関係検出 [24、43、49] など、さまざまなドメインのグラフ関連の幅広い問題に対処する上で大きな成功率を収めています。GNN の特徴的な点は、グラフ構造上でのメッセージパッシングによる空間アプローチを操作して特徴を集約することです。これにより、GNN は基礎となるグラフ構造から構造情報や依存関係 (トポロジ認識と呼ばれる) を长期保持できるため、ノード分類などのタスクで如此に効果的になります。図 1 は、GNN の全体人员的な学習プロセスを示しています。
GNN は実用的で风险的であるにもかかわらず、特にデータ間の依存関係が他の機械学習モデルとは大きく異なる半教師ありノード分類設定においては、理論的体谅が严重不足しています [25]。この設定では、グラフ構造によって过滤されたデータ間の関係と众多のラベル付きノードを凭借して、残りのノードのラベルを予測することが目標です。GNN の既存の理論的探究のほとんどは、GNN のメッセージ パッシング メカニズムと Weisfeiler-Lehman 同型性テスト [19] の関係に对象を当てており、学習した表現で異なるグラフ構造を区別する GNN の本事、つまり GNN の表現力を体谅することを目指しています。表現力の探究に触発されて、トポロジー認識を高めることは重视的に非常有利であると常见に信じられており、多くの探究は、GNN が学習した表現でより多くの構造的性质を始终保持できるようにすることに对象を当てています [29、33、48]。
しかし、GNN が入力としてグラフ構造に依存し、それを特别敏感に認識するようになるにつれて、データ内の某个の構造サブグループ (トレーニング セットとの構造的類似性によってグループ化された個別のデータ サブセット) に対して異なる普通化パフォーマンスを示す情况性があります。個別の構造サブグループにわたる GNN 普通化の降钙素原检测化は、構造サブグループ普通化と呼ばれます [25]。このような考慮事項は、GNN のアプリケーションと開発において切勿欠です。たとえば、タンパク質間彼此之间效果ネットワーク内では、これらの構造サブグループが異なる分子结构複合体を表し、彼此之间效果予測の定位精度に影響を与える情况性があります。同様に、GNN のトポロジ認識が普通化にどのように影響するかを定义することは、トレーニングのサンプリング戦略を考案する際に切勿欠です。GNN の普通化パフォーマンスがグラフ データの某个の構造的特徴によってどの限度影響を受けるかは、トレーニング データセットの構成を決定する上で比较重点です。その比较重点性にもかかわらず、GNN のトポロジ認識と構造サブグループの普通化の関係についての定义はまだ欠缺しています。さらに、GNN のトポロジー認識を特徴付けることは、特に異なるドメインやタスクが異なる構造的側面を優先する情况性があることを考慮すると、課題となります。したがって、さまざまな構造に関連して GNN のトポロジー認識を評価するには、汎用的なフレームワークが必备です。
このギャップを埋めるために、本論文では、半教師ありノード分類のコンテキストにおける GNN の構造サブグループの正常化とトポロジー認識の関係を实验するための相近メトリック埋め込みに基づく新しいフレームワークを议案します。议案されたフレームワークにより、さまざまな構造サブグループに関する GNN の構造サブグループの正常化を調査できます。より主要的には、この实验の主な貢献は次のようにまとめられます。
1. 有相拟メトリック埋め込みを施用して、GNN の構造サブグループの一半化とトポロジ認識の上下级意义を調べるための、構造に依存しない新しいフレームワークを建议します。このフレームワークは汎用性が高く、很短経路距離などのさまざまな構造測定に対応し、対応する構造測定のみを用得着とします。首要な要因を推定するシンプルさにより、幅広いシナリオに適用および一半化できます。
2. 私たちのフレームワーク内での的形式分析一下を通じて、GNN のトポロジー認識と似的化パフォーマンスの間に明確な関連性があることが証明されました (定理 1)。また、トポロジー認識の学习により GNN の表現力が学习する每方で、トレーニング セットと構造的に類似したサブグループが優先され、似的化パフォーマンスが不均衡一になる机会があることも示しています (定理 2)。このような構造的特点は、シナリオに応じて危险 (平等待遇性の問題を引き起こす) になることもあれば、有所帮助 (設計上の決定を通知模板する) になることもあります。これは、トポロジー認識の学习が GNN に重视的に商业利益をもたらすという似的的な考えに疑問を投げかけており [29、33、48]、トポロジー認識と似的化パフォーマンスの関係を考慮することの为必要性を強調しています。
3. 很短経路距離に関するケーススタディを通じてフレームワークを検証し、その実用性と関連性を強調しました。結果は理論的発見を裏付けており、很短経路距離の認識を高めたGNNは、トレーニングセットに近い頂点グループの分類に優れていることを示しています。さらに、グラフアクティブラーニング[11,15]のコールドスタート問題を軽減するために私たちの発見をどのように適用できるかを示し、私たちのフレームワークと結果の実用的な暗示を強調しました。
この論文は、CC BY 4.0 DEED ライセンスの下で。