講演情報

[4Yin-B-55]Multi-Turn Jailbreakに対するLLMモデル内部の安全機構の分析

〇小山 卓麻1、芝原 俊樹1、松林 勝1、岩花 一輝1、遠田 耕司1、千田 成樹1、大湊 健一郎1 (1. NTT社会情報研究所)

キーワード:

大規模言語モデル、multi-turn jailbreak、安全層、隠れ層

安全に動作するよう訓練された大規模言語モデル (LLM) に有害な文を生成させるジェイルブレイクについて,シングルターンのプロンプトに対するLLM内部の挙動は検証されてきたが,マルチターンにおける挙動は十分に検証されていない.本研究では,シングルターン・ジェイルブレイクとマルチターン・ジェイルブレイクに対して,LLMの応答文生成に関連する隠れ層の活性に着目して比較評価した.実験の結果,シングルターンの攻撃に対しては安定して拒否応答して関連する隠れ層の活性を確認した一方,マルチターンでは拒否応答文を生成しないか,拒否しても内部活性のパターンが異なることを確認した.本結果は,マルチターン・ジェイルブレイクに対応した防御手法の必要性を示唆する.