講演情報
[4Yin-B-12]日本語対応LLMに対するプロンプトインジェクション防御モデルの構築と課題
〇和田 幸志郎1、佐藤 大地1、横山 敬一1 (1. EpicAI)
キーワード:
セキュリティ、プロンプトインジェクション
本研究は、プロンプトインジェクション攻撃を検知・防御する日本語特化のセキュリティ指向LLMの構築を目的とする。2023年末時点で日本語環境に対応した公開データセットや防御モデルは存在しなかったため、英語データセットの翻案に加え、表記ゆれ、敬語、ゼロ幅スペース挿入など日本語特有の攻撃パターンを反映したデータを新規生成した。約24,000件の攻撃データと約10,000件の通常対話データからなるコーパスを構築し、Qwen3-4Bを用いてLoRAで二値分類モデルを学習した結果、約99%の精度を達成し、既存の英語中心モデルを上回る性能を示した。さらに誤分類分析を通じ、日本語特有の課題と多層防御における本手法の位置づけを論じる。
