講演情報

[2Yin-B-02]次元削減による日本語埋め込み表現の文章長バイアスの検証

〇鈴木 彰人1、田代 雄介1 (1. 三菱UFJトラスト投資工学研究所)

キーワード:

テキスト埋め込み表現、次元削減、主成分分析

本研究は日本語テキスト埋め込み表現における「文章長バイアス(Length Collapse)」を検証する。要旨は同一意味の長文と短文ペア(xlsum日本語サブセット)を用い、複数の日本語対応埋め込みモデル(ruri系列、E5系列、plamo等)で比較を行った。評価は(1)L1ノルムによる埋め込みの大きさ、(2)PCAによる次元削減後の主成分得点の差分、および(3)逆変換による復元誤差を中心に実施した。結果として、多くのモデルでは長文の埋め込みが原点寄りとなりノルムが小さく、PCA復元誤差も小さい傾向が観察され、すなわち長文で情報が平均化・喪失しやすいことが示唆された。一方で、最大入力トークン長が大きいロングコンテキスト対応モデルでは相対的に長文の復元誤差が大きく、多様な情報を保持している可能性が示された。またモデルサイズが大きいほど保持情報量が増す傾向も一部確認された。今後はさらに長尺入力やPrefixの有無、学習手法・アーキテクチャ要因の影響を明らかにする必要がある。