講演情報

[4Yin-B-12]日本語対応LLMに対するプロンプトインジェクション防御モデルの構築と課題

〇和田幸志郎¹、佐藤大地¹、横山敬一¹ (1. EpicAI)

キーワード：

セキュリティ、プロンプトインジェクション

本研究は、プロンプトインジェクション攻撃を検知・防御する日本語特化のセキュリティ指向LLMの構築を目的とする。2023年末時点で日本語環境に対応した公開データセットや防御モデルは存在しなかったため、英語データセットの翻案に加え、表記ゆれ、敬語、ゼロ幅スペース挿入など日本語特有の攻撃パターンを反映したデータを新規生成した。約24,000件の攻撃データと約10,000件の通常対話データからなるコーパスを構築し、Qwen3-4Bを用いてLoRAで二値分類モデルを学習した結果、約99%の精度を達成し、既存の英語中心モデルを上回る性能を示した。さらに誤分類分析を通じ、日本語特有の課題と多層防御における本手法の位置づけを論じる。

コメントの閲覧・投稿にはログインが必要です。ログイン

セッション詳細へ戻る