Presentation Information
[4Yin-B-55]Internal Safety Activation Analysis of LLMs Under Multi-Turn Jailbreaks
〇Takuma Koyama1, Toshiki Shibahara1, Masaru Matsubayashi1, Kazuki Iwahana1, Kouji Tohda1, Masaki Chida1, Kenichiro Ominato1 (1. NTT Social Informatics Laboratories)
Keywords:
large language model,multi-turn jailbreak,safety layers,hidden layers
安全に動作するよう訓練された大規模言語モデル (LLM) に有害な文を生成させるジェイルブレイクについて,シングルターンのプロンプトに対するLLM内部の挙動は検証されてきたが,マルチターンにおける挙動は十分に検証されていない.本研究では,シングルターン・ジェイルブレイクとマルチターン・ジェイルブレイクに対して,LLMの応答文生成に関連する隠れ層の活性に着目して比較評価した.実験の結果,シングルターンの攻撃に対しては安定して拒否応答して関連する隠れ層の活性を確認した一方,マルチターンでは拒否応答文を生成しないか,拒否しても内部活性のパターンが異なることを確認した.本結果は,マルチターン・ジェイルブレイクに対応した防御手法の必要性を示唆する.
