講演情報

[5N2-GS-11h-04]C3A: 多段防御LLMシステムに対するカスケード認識型適応攻撃エージェント

〇高島 直也1、橋本 清斗1、下村 晃太1,2、澤 風吹1、藤原 勇人1、井上 顧基1、山下 隆義2 (1. 株式会社Elith、2. 中部大学)

キーワード:

大規模言語モデル、多段防御、適応的攻撃、ジェイルブレイク攻撃、LLM安全性

大規模言語モデル(LLM)の安全性確保のため,Input Guard,Target LLM,Output Guardからなる3段階防御が広く採用されている.しかし,既存のジェイルブレイク攻撃手法は多段防御をブラックボックスとして扱い,各ステージの特性を活用していない.本研究では,各ステージの判定結果を観測可能な適応型攻撃者を想定し,防御のカスケード構造を活用する攻撃エージェントC3A(Cascade-Aware Adaptive Attack Agent)を提案する.C3Aは攻撃失敗時のブロックステージを特定し,オフライン評価から構築したステージ別・技法別有効性のKnowledge Base(KB)を参照して,失敗ステージに特化した攻撃戦略を選択する.JailbreakBenchの100件の攻撃目標に対する評価の結果,C3Aは代表的な3段階防御構成に対してASR 58%を達成し,既存手法PAIR(44%)を14ポイント上回った.また,KBを除去するとASRは30%に低下しPAIRを下回ることから,KBによるステージ特化型ガイダンスが不可欠であることを確認した.

コメント

コメントの閲覧・投稿にはログインが必要です。ログイン