Presentation Information
[2N6-GS-2x-05]Analysis of the Divergence Between Internal Representations of Emotional Concepts and Generation Control Based on the Linear Representation Hypothesis
〇Takumi Tachiya1, Takayasu Fushimi1 (1. Tokyo University of Technology)
[[online]]
Keywords:
LLM
大規模言語モデル(LLMs)は感情認識において優れた性能を示すが、ファインチューニング(Fine-Tuning: FT)が内部の概念空間に与える影響は未解明な点が多い。本稿では、線形表現仮説に基づき、感情分類FTが内部表現の保持と文生成時の制御性に与える影響を多角的に検証する。解析には日本語LLMsであるsarashina2.2-1b-instruct-v0.1を用い、感情情報の局在性が指摘される後期層を対象とした。
実験では、FTの進行に伴う内部概念情報の変容を定量的に観測するとともに、ステアリング介入による出力ロジットおよび生成文章の品質変化を評価する。特に、検証誤差が最小となる地点付近での挙動に着目し、学習プロセスにおける概念の洗練と副作用の相関を考察する。
実験では、FTの進行に伴う内部概念情報の変容を定量的に観測するとともに、ステアリング介入による出力ロジットおよび生成文章の品質変化を評価する。特に、検証誤差が最小となる地点付近での挙動に着目し、学習プロセスにおける概念の洗練と副作用の相関を考察する。
