講演情報

[2N6-GS-2x-05]線形表現仮説に基づく感情概念の内部表現と生成制御の乖離に関する解析

〇立谷 拓海1、伏見 卓恭1 (1. 東京工科大学)
[[オンライン]]

キーワード:

大規模言語モデル

大規模言語モデル(LLMs)は感情認識において優れた性能を示すが、ファインチューニング(Fine-Tuning: FT)が内部の概念空間に与える影響は未解明な点が多い。本稿では、線形表現仮説に基づき、感情分類FTが内部表現の保持と文生成時の制御性に与える影響を多角的に検証する。解析には日本語LLMsであるsarashina2.2-1b-instruct-v0.1を用い、感情情報の局在性が指摘される後期層を対象とした。
実験では、FTの進行に伴う内部概念情報の変容を定量的に観測するとともに、ステアリング介入による出力ロジットおよび生成文章の品質変化を評価する。特に、検証誤差が最小となる地点付近での挙動に着目し、学習プロセスにおける概念の洗練と副作用の相関を考察する。