講演情報
[1K3-GS-3a-04]メタデータと表形式データサンプルを統合したマルチビュー融合によるデータセット類似度学習
〇程 昊陽1、早矢仕 晃章1 (1. 東京大学)
キーワード:
データセット類似度、表現学習、データセット埋め込み
現代のデータプラットフォームでは,利用者はメタデータと小規模な内容プレビューを手掛かりにデータセットを探索する。本研究は,データセット間類似度学習のためのマルチビュー枠組みを提案し,メタデータを Tag・Text・Behavior の3ビューに分解し,サンプル化した主表から得る Content ビューで補強する。Tag/Text は型制約付きランダムウォークによりデータセット–タグ/単語二部グラフをモデル化し,Skip-gram(SGNS)で埋め込む。Behavior は作成者情報および利用・相互作用ログから機能的近接性を捉える。Content は行・列のサンプリングに基づくコンパクトな列スケッチで表を要約し,Sentence-Transformerで埋め込む。4種の類似度グラフは,データセットごとにビュー信頼度を適応的に重み付けし近傍構造を反復的に洗練する,信頼度考慮型 Similarity Network Fusion により統合する。Meta Kaggle Datasets(最大約10万件)での実験では,代理的な正解信号に基づく評価により,4ビュー融合が単一ビューおよび素朴な融合ベースラインを標準ランキング指標で一貫して上回り,内容欠損や厳しいサンプリング制約下でも頑健であることを示した。
