The 40th Annual Conference of the Japanese Society for Artificial Intelligence, 2026

Presentation Information

[4Yin-B-55]Internal Safety Activation Analysis of LLMs Under Multi-Turn Jailbreaks

〇Takuma Koyama¹, Toshiki Shibahara¹, Masaru Matsubayashi¹, Kazuki Iwahana¹, Kouji Tohda¹, Masaki Chida¹, Kenichiro Ominato¹ (1. NTT Social Informatics Laboratories)

Keywords:

large language model,multi-turn jailbreak,safety layers,hidden layers

安全に動作するよう訓練された大規模言語モデル (LLM) に有害な文を生成させるジェイルブレイクについて，シングルターンのプロンプトに対するLLM内部の挙動は検証されてきたが，マルチターンにおける挙動は十分に検証されていない．本研究では，シングルターン・ジェイルブレイクとマルチターン・ジェイルブレイクに対して，LLMの応答文生成に関連する隠れ層の活性に着目して比較評価した．実験の結果，シングルターンの攻撃に対しては安定して拒否応答して関連する隠れ層の活性を確認した一方，マルチターンでは拒否応答文を生成しないか，拒否しても内部活性のパターンが異なることを確認した．本結果は，マルチターン・ジェイルブレイクに対応した防御手法の必要性を示唆する．

Back to Session information