講演情報
[4Yin-A-30]複数生成源のトークン候補による人間介入型LLMジェイルブレイク
〇伊藤 眞翔1、木下 洋輝2、岩花 一輝2、芝原 俊樹2、内田 真人1 (1. 早稲田大学、2. NTT社会情報研究所)
キーワード:
大規模言語モデル、ジェイルブレイク、ヒューマン・イン・ザ・ループ、セーフティアライメント
大規模言語モデル(LLM)には安全性を確保するための制御機構が導入されているが、生成過程を操作して本来抑制されるべき出力を引き出す「ジェイルブレイク攻撃」の脅威が指摘されている。しかし実際には、従来の攻撃手法では実行環境上の制約の厳しさや、攻撃者側の負荷の大きさの観点から、実用性が低く現実的な脅威となりにくい。本研究では、単一モデルに対し異なる接尾辞を付加した複数の派生プロンプトを用い、候補トークンの和集合を活用する対話型手法を提案する。実験の結果、単一モデルで攻撃者の負担を軽減した攻撃が可能であることを確認した。本研究は、LLMの安全性評価および防御設計に対する新たな課題を提示する。
