Presentation Information

[2I1-OS-49-03]Dissecting Local / Global Features in Maze Exploration of Hierachical Reasoning Model

〇Yosuke Miyanishi1, Tetsuro Morimura1 (1. CyberAgent Inc.)

Keywords:

Mechanistic Interpretability,SAE,reasoning model

近年の大規模推論モデル(LRM)は、人間に近い、あるいは人間を上回る水準の推論能力を達成している。LRMの計算需要が増大するにつれ、資源制約下でも同様の推論能力をもつ小規模推論モデル(SRM)の開発も進んでいる。SRMの推論過程を解釈することは、推論能力がどのように出現し、より小さなアーキテクチャへどのように圧縮されるのかを明らかにする上で有用な示唆を与える。本研究では、難度の高いMaze-Hardタスクにおける階層的推論モデル(HRM)を対象に、スパース・オートエンコーダ(SAE)を用いて解析する。解析の結果(1)HRMは迷路の解法の大部分を最初の推論ステップで同定すること、(2)SAEに基づく介入により、モデルの空間的な探索領域を操作できること、(3)SAEの特徴量が局所的に機能するものと解法全体に影響を及ぼすものとに大別できること、の3点が明らかになった。これらの結果は、SAEに基づく特徴量解析が、SRMの内部動作を解釈するための有望なアプローチであることを示している。

Comment

To browse or post comments, you must log in.Log in