講演情報

15:30 〜 15:45

[4E5-GS-11b-01]ポリシーフィルタリングによる効率的な大規模言語モデル向けガードレール

〇山田美優²、伊東邦大¹ (1. 日本電気株式会社、2. 東京科学大学)

キーワード：

LLM、ガードレール、AI Safety

大規模言語モデル（LLM）はチャットボットやAIエージェントなどの様々なシステムに組み込まれている。安全にこれらのシステムを運用するために、LLMの出力を適切に制御する必要がある。自然言語で作成された判定用プロンプトをLLMに処理させる方法（LLM-as-a-judge）に基づくガードレールは、定性的な検査を柔軟にカスタマイズできるので、LLMの出力制御に広く用いられている。しかし既存方式では、検査項目（ポリシー）を網羅しようとすると判定用プロンプトのトークン数が増加し、高コスト化と検知の見逃しを招く可能性がある。本稿では、ポリシーフィルタリングによる動的ガードレールを提案する。提案方式は、ポリシーの「違反例」を参照して、検査対象テキストに応じてポリシーの選択を行い、選ばれたポリシーだけから構成される判定用プロンプトに基づきLLM-as-a-judgeによる判定を行う。本稿では安全性データセットAnswerCarefullyを用い特に入力文の検査に関して有効性を検証した。実験では、提案方式は既存方式比1/3未満のトークン数で同等以上の検知性能を示した。

セッション詳細へ戻る