講演情報

[5Yin-A-47]推論向け大規模言語モデルに対する回答拒否強化学習

〇角掛 正弥1、友成 光1、高瀬 諒一1、竹下 孔喜1、受田 賢知1、十河 泰弘1 (1. 日立製作所)

キーワード:

大規模言語モデル、強化学習、回答拒否モデル、信頼性、回答不能問題

近年,段階的な推論を必要とする複雑な問題に対し,長い思考過程を生成する大規模言語モデル(推論モデル)が有効性を示している。推論モデルは強化学習などを通じて,仮説的な思考挙動を獲得している.一方で,前提条件の欠落などで回答できない筈の問題に対しても過剰な推測を行い,回答を捏造してしまう課題が存在する。この課題の解決策に,回答不能な問題に対して回答を拒否するように強化学習(回答拒否強化学習)を行う方法が挙げられる。本稿では,推論モデルに対する追加の事後学習として,回答拒否強化学習の有効性を検討する。実験の結果,元の推論能力を概ね維持しつつ回答不能問題への拒否率を大きく改善できることが判明した.