講演情報

[4Yin-B-28]ガードレールを用いた推論時介入によるLLMの出力制御

〇山﨑 雄輔1、深見 匠1、田村 桜子1、芝原 俊樹1 (1. NTT株式会社,社会情報研究所)

キーワード:

ガードレール、推論時介入

ストリーミング形式の対話において LLM の応答を安全に提供するため,生成内容の有害性を判定し,有害と判定した場合に応答を遮断するガードレールが広く用いられている.しかし,局所的に有害と判定され得る表現を含みつつも重要な内容や意図を含む応答に対しては,過剰な遮断となる場合がある.特に企業向け文書生成では,表現の一部に問題があっても,応答全体の有用性を維持しながら生成することが求められる.
本研究では,推論時にガードレールを用いて生成過程へ介入し,次トークン分布を制約付き最適化問題として再構成する手法 Trust-Region Guardrail-Guided Decoding(TRGGD)を提案する.
提案手法は,元のLLMの生成分布からのKLダイバージェンスを明示的に制約した上で,有害性スコアに基づく目的関数を最小化する.これにより,生成分布からの乖離を制御しながら,有害性低減と有用性のトレードオフを段階的に調整可能とする.ベンチマーク実験により,既存の推論時介入手法と比較して,有用性の過度な低下や拒否率の急増を抑えながら安全性を向上できることを確認した.また,生成速度とのトレードオフが存在することも示した.