講演情報

[4E5-GS-11b-06]LLM 3段階防御システムの脆弱性分析と防御設計への示唆

高島 直也1、〇澤 風吹1、橋本 清斗1、下村 晃太1,2、藤原 勇人1、井上 顧基1、山下 隆義2 (1. 株式会社 Elith、2. 中部大学)

キーワード:

大規模言語モデル、多段防御、脆弱性分析、ジェイルブレイク攻撃、安全性評価

大規模言語モデル(LLM)の安全性確保のため,Input Guard →Target LLM →Output Guard からなる多段防御構成が実運用で広く採用されている.しかし,各段階の安全性への寄与は体系的に評価されていない.本研究では,5 種のInput Guard,13 種のTarget LLM,5 種のOutput Guard を組み合わせた325 防御構成に対し,7,010 件の攻撃プロンプトを用いた大規模実証評価を行い,複数LLM の討論に基づくMultiJudge で有害性を判定した.その結果,多段防御の構成選択により攻撃成功率は17.9%から46.0%まで変動し,ブロックの68.3%がInput Guard で発生し寄与が最大であることを示した.さらに,防御構成と攻撃技法の組み合わせにより有効性が大きく異なることを明らかにした.以上は多段防御の安全性が構成選択に強く依存することを実証的に示している.本知見に基づき,運用シナリオ別の推奨構成を提示する.

コメント

コメントの閲覧・投稿にはログインが必要です。ログイン