講演情報

[5Yin-A-48]NGワードゲームを用いた大規模言語モデルの誘導耐性評価

〇米田駿一¹、吉岡優木竹¹、高柳由来¹、福田ゆみ¹、小原涼馬⁴、坂井優介²、上垣外英剛²、林克彦³、松野省吾¹ (1. 電気通信大学、2. 奈良先端大、3. 東京大学、4. 日本電気株式会社)

キーワード：

大規模言語モデル

LLM実運用では，誘導や敵対的質問下でも特定対象に言及しない等の安全制約を多ターンで維持できるかの定量評価が重要である．本研究は，秘匿の割当語（NGワード）を各参加者に与え，他者は発話を誘発し本人は回避する対話ゲーム（NGワードゲーム）を実運用における課題を単純化し評価しやすいタスクとして，割当語を伏せた対話で誘導・回避が交錯する状況下の制約遵守を測る枠組みInduceGuardを提案する．各ターンで一致により逸脱を判定し，類似度で接近度を定量化して制約逸脱リスク推移を算出する．実験では，脱落者を脱落時点で相対安全度が最低と判定する例が多く，一部では脱落前に相対安全度の低下も見られた．

コメントの閲覧・投稿にはログインが必要です。ログイン

セッション詳細へ戻る