The 40th Annual Conference of the Japanese Society for Artificial Intelligence, 2026

Presentation Information

[5Yin-A-19]A Threat Intelligence-Driven Jailbreak Defense Framework Based on Kill Chain Modeling and Attack Phase Tracking

〇Yusuke Akimoto¹, Hisashi Okui¹, Yutaro Iizawa¹ (1. ARISE analytics)

Keywords:

AI,AI Security,Jailbreak Attack,RAG-based Defense,Cyber Threat Intelligence

大規模言語モデル (LLM) をベースとしたAgentシステムが社会に浸透し始めている昨今，Jailbreak攻撃をはじめとしたLLMに対する敵対的な攻撃がセキュリティ上の課題になりつつある．既存の防御手法は主に個別のセッションを対象として攻撃パターン検知や防御に焦点を当てているが，脅威情報インテリジェンスにおいて整備されているような戦略的な攻撃や複数セッションにわたる段階的な攻撃を十分に検討できているとは言えない．
本研究では，RAG-based Defenseを拡張し，脅威情報インテリジェンスの知見に着想を得た新しい防御フレームワークを提案する．提案フレームワークでは，Jailbreak攻撃をKill Chainとしてモデル化し，攻撃を複数のフェーズに分解する．各フェーズにおいて攻撃者が獲得した情報や攻撃性能を追跡し，累積的なリスクを評価することで，致命的な攻撃が実行される前の早期介入を可能にする．
マルチターン攻撃データセットを用いた実験により，本手法ではJailbreak攻撃を早期のフェーズで検知・防御できることを確認した．

Back to Session information