講演情報
[5Yin-A-48]NGワードゲームを用いた大規模言語モデルの誘導耐性評価
〇米田 駿一1、吉岡 優木竹1、高柳 由来1、福田 ゆみ1、小原 涼馬4、坂井 優介2、上垣外 英剛2、林 克彦3、松野 省吾1 (1. 電気通信大学、2. 奈良先端大、3. 東京大学、4. 日本電気株式会社)
キーワード:
大規模言語モデル
LLM実運用では,誘導や敵対的質問下でも特定対象に言及しない等の安全制約を多ターンで維持できるかの定量評価が重要である.本研究は,秘匿の割当語(NGワード)を各参加者に与え,他者は発話を誘発し本人は回避する対話ゲーム(NGワードゲーム)を実運用における課題を単純化し評価しやすいタスクとして,割当語を伏せた対話で誘導・回避が交錯する状況下の制約遵守を測る枠組みInduceGuardを提案する.各ターンで一致により逸脱を判定し,類似度で接近度を定量化して制約逸脱リスク推移を算出する.実験では,脱落者を脱落時点で相対安全度が最低と判定する例が多く,一部では脱落前に相対安全度の低下も見られた.
