講演情報

[5L3-OS-6b-04]意味は低次元に宿るが,検索には高次元が必要である埋め込み空間の幾何構造とランキング性能の相転移的関係

〇山本 則行1 (1. 株式会社ギグインテリジェンス)

キーワード:

意味埋め込み、内在次元、多様体仮説、密検索、RAG

大規模言語モデルに基づく埋め込み表現は意味検索やRAGに広く用いられているが,次元削減を行うと検索性能が急激に劣化する現象がしばしば観測される.この挙動は,「意味は低次元多様体上に存在する」という仮説と一見矛盾する.本研究では,この乖離の要因を意味表現の幾何構造と検索問題の要請の差異として整理し,その関係を明らかにする.参加比によるグローバル次元推定と,TwoNNおよびLevina–Bickel推定による局所内在次元推定を組み合わせることで,意味の自由度は主として局所幾何により特徴づけられることを示す.さらに,埋め込み次元を系統的に削減するとランキング性能が臨界的に劣化することを観測し,その要因が検索に必要な幾何学的解像度の不足にあることを示す.本研究は,意味自由度と検索解像度の関係を幾何学的に統一的に説明し,埋め込みベクトルを用いたRAGおよび密検索システム設計への理論的指針を与える.