Presentation Information
[4Yin-A-30]Human-in-the-Loop Jailbreak Attacks via Token Candidates from Multiple Generation Sources
〇Manato Ito1, Hiroki Kinoshita2, Kazuki Iwahana2, Toshiki Shibahara2, Masato Uchida1 (1. Waseda University, 2. NTT Social Informatics Laboratories)
Keywords:
Large Language Models,Jailbreak,Human-in-the-Loop,Safety Alignment
大規模言語モデル(LLM)には安全性を確保するための制御機構が導入されているが、生成過程を操作して本来抑制されるべき出力を引き出す「ジェイルブレイク攻撃」の脅威が指摘されている。しかし実際には、従来の攻撃手法では実行環境上の制約の厳しさや、攻撃者側の負荷の大きさの観点から、実用性が低く現実的な脅威となりにくい。本研究では、単一モデルに対し異なる接尾辞を付加した複数の派生プロンプトを用い、候補トークンの和集合を活用する対話型手法を提案する。実験の結果、単一モデルで攻撃者の負担を軽減した攻撃が可能であることを確認した。本研究は、LLMの安全性評価および防御設計に対する新たな課題を提示する。
