Presentation Information

[5N2-GS-11h-04]C3A: Cascade-Aware Adaptive Attack Agent for Multi-Stage LLM Defense Systems

〇Naoya Takashima1, Kiyoto Hashimoto1, Kota Shimomura1,2, Fubuki Sawa1, Hayato Fujihara1, Koki Inoue1, Takayoshi Yamashita2 (1. Elith Inc., 2. Chubu University)

Keywords:

Large Language Models,Multi-stage Defense,Adaptive Attack,Jailbreak Attack,LLM Safety

大規模言語モデル(LLM)の安全性確保のため,Input Guard,Target LLM,Output Guardからなる3段階防御が広く採用されている.しかし,既存のジェイルブレイク攻撃手法は多段防御をブラックボックスとして扱い,各ステージの特性を活用していない.本研究では,各ステージの判定結果を観測可能な適応型攻撃者を想定し,防御のカスケード構造を活用する攻撃エージェントC3A(Cascade-Aware Adaptive Attack Agent)を提案する.C3Aは攻撃失敗時のブロックステージを特定し,オフライン評価から構築したステージ別・技法別有効性のKnowledge Base(KB)を参照して,失敗ステージに特化した攻撃戦略を選択する.JailbreakBenchの100件の攻撃目標に対する評価の結果,C3Aは代表的な3段階防御構成に対してASR 58%を達成し,既存手法PAIR(44%)を14ポイント上回った.また,KBを除去するとASRは30%に低下しPAIRを下回ることから,KBによるステージ特化型ガイダンスが不可欠であることを確認した.

Comment

To browse or post comments, you must log in.Log in