講演情報

[1Yin-B-35]大規模言語モデルにおける日本語埋め込み表現の幾何学的分析

〇鳥丸 玄翔1 (1. 早稲田大学)

キーワード:

大規模言語モデル、文脈化表現、異方性、層別幾何指標、ベースライン補正

本研究は、日本語大規模言語モデル(rinna/japanese-gpt-neox-3.6B)の内部表現における「文脈特異性」と「異方性」の層方向の推移を幾何学的指標により分析した。JGLUE JSTSから構築した24,554文を対象に、Self-Similarity、Intra-Sentence Similarity、MEVを計測し、層内ランダム・ベースラインによる補正評価を行った。結果、深層ほど補正後Self-Similarityは単調に低下し、文脈特異性が増大することが確認された。一方で、Intra-Sentence Similarityやベースライン指標は全層で高止まりしており、表現空間全体が強い異方性(PC1支配)を持つことが示された。これにより、日本語モデルにおいても強い共通成分上で文脈差分が形成される構図が明らかとなり、実務上の層選択やセンタリング等の異方性対策の重要性が示唆された。