講演情報
[5Yin-A-30]言語モデルを用いたグラフ生成における局所部分構造の分布一致評価
〇山田 正嗣1、杉山 麿人1 (1. 国立情報学研究所)
キーワード:
グラフ生成、頻出部分グラフマイニング、大規模言語モデル
グラフ生成モデルの汎化性能を理解するためには,学習データの記憶と局所的な統計的性質の保存とを区別することが不可欠である.本研究では,グラフの部分構造を符号化した正準 DFS コードに基づいて学習された Transformer モデルが,頻出部分グラフマイニングに類似した形で頻出部分グラフの分布を再現するという仮説を検討する.学習集合および生成集合の双方から頻出部分グラフを抽出し,それらをパターンとそのサポート分布として表現する.再現性と新規性の分析には,順位相関係数および分布距離に加え,欠損質量と新規質量を用いる.さらに,学習集合からの再サンプリングにより参照ベースラインを構築し,頻出統計量の一貫性がサンプリングにより自明に生じる範囲かを評価する.実験の結果,高頻度領域では局所部分構造分布の高い一貫性が確認され,統計的再現に基づくマイニング的挙動が示された.一方,低頻度領域では分布の乖離と欠損質量が顕著であり,統計的再現は主に頻出部分構造に限定されること,またデコーディング制約が記憶的挙動を増幅させることが確認された.
