講演情報
[4E5-GS-11b-01]ポリシーフィルタリングによる効率的な大規模言語モデル向けガードレール
〇山田 美優2、伊東 邦大1 (1. 日本電気株式会社、2. 東京科学大学)
キーワード:
LLM、ガードレール、AI Safety
大規模言語モデル(LLM)はチャットボットやAIエージェントなどの様々なシステムに組み込まれている。安全にこれらのシステムを運用するために、LLMの出力を適切に制御する必要がある。自然言語で作成された判定用プロンプトをLLMに処理させる方法(LLM-as-a-judge)に基づくガードレールは、定性的な検査を柔軟にカスタマイズできるので、LLMの出力制御に広く用いられている。しかし既存方式では、検査項目(ポリシー)を網羅しようとすると判定用プロンプトのトークン数が増加し、高コスト化と検知の見逃しを招く可能性がある。本稿では、ポリシーフィルタリングによる動的ガードレールを提案する。提案方式は、ポリシーの「違反例」を参照して、検査対象テキストに応じてポリシーの選択を行い、選ばれたポリシーだけから構成される判定用プロンプトに基づきLLM-as-a-judgeによる判定を行う。本稿では安全性データセットAnswerCarefullyを用い特に入力文の検査に関して有効性を検証した。実験では、提案方式は既存方式比1/3未満のトークン数で同等以上の検知性能を示した。
コメント
コメントの閲覧・投稿にはログインが必要です。ログイン
