The 40th Annual Conference of the Japanese Society for Artificial Intelligence, 2026

Presentation Information

4:45 PM - 5:00 PM JST(7:45 AM - 8:00 AM UTC)

[4E5-GS-11b-06]Vulnerability Analysis of Three-Layer LLM Defense Systems and Implications for Defense Design

Naoya Takashima¹, 〇Fubuki Sawa¹, Kiyoto Hashimoto¹, Kota Shimomura^1,2, Hayato Fujihara¹, Koki Inoue¹, Takayoshi Yamashita² (1. Elith Inc., 2. Chubu University)

Keywords:

Large Language Models,Multi-stage Defense,Vulnerability Analysis,Jailbreak Attack,Safety Evaluation

大規模言語モデル（LLM）の安全性確保のため，Input Guard →Target LLM →Output Guard からなる多段防御構成が実運用で広く採用されている．しかし，各段階の安全性への寄与は体系的に評価されていない．本研究では，5 種のInput Guard，13 種のTarget LLM，5 種のOutput Guard を組み合わせた325 防御構成に対し，7,010 件の攻撃プロンプトを用いた大規模実証評価を行い，複数LLM の討論に基づくMultiJudge で有害性を判定した．その結果，多段防御の構成選択により攻撃成功率は17.9%から46.0%まで変動し，ブロックの68.3%がInput Guard で発生し寄与が最大であることを示した．さらに，防御構成と攻撃技法の組み合わせにより有効性が大きく異なることを明らかにした．以上は多段防御の安全性が構成選択に強く依存することを実証的に示している．本知見に基づき，運用シナリオ別の推奨構成を提示する．

Back to Session information