Presentation Information
[4E5-GS-11b-06]Vulnerability Analysis of Three-Layer LLM Defense Systems and Implications for Defense Design
Naoya Takashima1, 〇Fubuki Sawa1, Kiyoto Hashimoto1, Kota Shimomura1,2, Hayato Fujihara1, Koki Inoue1, Takayoshi Yamashita2 (1. Elith Inc., 2. Chubu University)
Keywords:
Large Language Models,Multi-stage Defense,Vulnerability Analysis,Jailbreak Attack,Safety Evaluation
大規模言語モデル(LLM)の安全性確保のため,Input Guard →Target LLM →Output Guard からなる多段防御構成が実運用で広く採用されている.しかし,各段階の安全性への寄与は体系的に評価されていない.本研究では,5 種のInput Guard,13 種のTarget LLM,5 種のOutput Guard を組み合わせた325 防御構成に対し,7,010 件の攻撃プロンプトを用いた大規模実証評価を行い,複数LLM の討論に基づくMultiJudge で有害性を判定した.その結果,多段防御の構成選択により攻撃成功率は17.9%から46.0%まで変動し,ブロックの68.3%がInput Guard で発生し寄与が最大であることを示した.さらに,防御構成と攻撃技法の組み合わせにより有効性が大きく異なることを明らかにした.以上は多段防御の安全性が構成選択に強く依存することを実証的に示している.本知見に基づき,運用シナリオ別の推奨構成を提示する.
Comment
To browse or post comments, you must log in.Log in
