講演情報

[D-8-04]SAE活性値の出力への寄与におけるモデル間の比較

〇譲原 祐太1、松澤 智史1、鈴木 海友1 (1. 東理大)

キーワード:

Mechanistic Interpretability、大規模言語モデル、スパースオートエンコーダ