Presentation Information
[4Yin-B-32]A Study of LLM Unlearning by Editing the Output Embedding Matrix
〇Tomoya Yamashita1, Yuuki Yamanaka1, Takayuki Miura1 (1. Social Informatics Laboratories, NTT, Inc.)
Keywords:
LLM Unlearning,Linear Representation Hypothesis,Mechanistic Interpretability
大規模言語モデル(LLM)は,性能向上に伴い利用が広がる一方で,攻撃的・差別的・暴力を助長する内容など望ましくない出力を生成しうることが課題となっている.
LLM Unlearning は望ましくない出力傾向の抑制を目指す一方,勾配更新を伴う既存手法では,更新が広く波及して副作用が生じやすく,また危険な文脈では出力しないが無害な文脈では許すといった文脈依存の抑制を実現しにくいという課題がある.
本研究は線形表現仮説に基づき,属性(例:pet, mammal)に対応する情報がLLMの出力埋め込み表現中に線形方向として存在すると仮定する.
そして,出力埋め込み表現における特定属性方向への寄与を抑える幾何的編集をUnlearningに活用する枠組みを提案する.
具体的には,出力埋め込み行列から推定した属性ベクトルを用いて編集対象トークンの出力埋め込み表現を局所的に編集する.
実験により,勾配更新なしに特定の属性に関連する文脈でのみ編集対象トークンの出力確率を低下させられることを示す.
LLM Unlearning は望ましくない出力傾向の抑制を目指す一方,勾配更新を伴う既存手法では,更新が広く波及して副作用が生じやすく,また危険な文脈では出力しないが無害な文脈では許すといった文脈依存の抑制を実現しにくいという課題がある.
本研究は線形表現仮説に基づき,属性(例:pet, mammal)に対応する情報がLLMの出力埋め込み表現中に線形方向として存在すると仮定する.
そして,出力埋め込み表現における特定属性方向への寄与を抑える幾何的編集をUnlearningに活用する枠組みを提案する.
具体的には,出力埋め込み行列から推定した属性ベクトルを用いて編集対象トークンの出力埋め込み表現を局所的に編集する.
実験により,勾配更新なしに特定の属性に関連する文脈でのみ編集対象トークンの出力確率を低下させられることを示す.
