The 40th Annual Conference of the Japanese Society for Artificial Intelligence, 2026

Presentation Information

[4Yin-A-30]Human-in-the-Loop Jailbreak Attacks via Token Candidates from Multiple Generation Sources

〇Manato Ito¹, Hiroki Kinoshita², Kazuki Iwahana², Toshiki Shibahara², Masato Uchida¹ (1. Waseda University, 2. NTT Social Informatics Laboratories)

Keywords:

Large Language Models,Jailbreak,Human-in-the-Loop,Safety Alignment

大規模言語モデル（LLM）には安全性を確保するための制御機構が導入されているが、生成過程を操作して本来抑制されるべき出力を引き出す「ジェイルブレイク攻撃」の脅威が指摘されている。しかし実際には、従来の攻撃手法では実行環境上の制約の厳しさや、攻撃者側の負荷の大きさの観点から、実用性が低く現実的な脅威となりにくい。本研究では、単一モデルに対し異なる接尾辞を付加した複数の派生プロンプトを用い、候補トークンの和集合を活用する対話型手法を提案する。実験の結果、単一モデルで攻撃者の負担を軽減した攻撃が可能であることを確認した。本研究は、LLMの安全性評価および防御設計に対する新たな課題を提示する。

Back to Session information