講演情報
[2Yin-B-59]大規模言語モデル推論のテスト時スケーリングにおけるプロセス報酬モデルの信頼性分析
〇王 佳惠1、黄 昱衡1、馬 雷1 (1. 東京大学)
キーワード:
大規模言語モデル、プロセス報酬モデル、テスト時スケーリング
大規模言語モデル(LLM)の推論能力向上手法として、プロセス報酬モデル(PRM)を用いたテスト時スケーリングが注目されているが、PRMガイド付き木探索は高コストにもかかわらずBest-of-N(BoN)に優位でないとの報告がある。本研究では、3種類のLLM–PRMの組み合わせを用い、PRMガイド付き木探索が一貫してBoNに劣るか、推論過程でPRMの信頼性がどのように変化するか、その要因は何かを実証的に分析した。その結果、PRMガイド付き木探索はBoNより平均正解率が6.2%低いことを確認した。原因として、PRMが前進しない非決定的なステップを高く評価する傾向があり、解答が冗長化して制限ステップ内で解に到達できなくなること、さらに初期ステップにおいて誤った推論に高得点を与える低信頼性を持つことを明らかにした。本研究は、PRMベース手法の根本的課題を示し、今後のテスト時スケーリングおよびPRM設計の改善に有用な知見を提供する。
