Presentation Information

[2Yin-B-59]Analysis of the Reliability of Process Reward Models in Test-Time Scaling for Large Language Model Reasoning

〇Jiahui Wang1, Yuheng Huang1, Lei Ma1 (1. The University of Tokyo)

Keywords:

Large Language Model,Process Reward Model,Test-Time Scaling

大規模言語モデル(LLM)の推論能力向上手法として、プロセス報酬モデル(PRM)を用いたテスト時スケーリングが注目されているが、PRMガイド付き木探索は高コストにもかかわらずBest-of-N(BoN)に優位でないとの報告がある。本研究では、3種類のLLM–PRMの組み合わせを用い、PRMガイド付き木探索が一貫してBoNに劣るか、推論過程でPRMの信頼性がどのように変化するか、その要因は何かを実証的に分析した。その結果、PRMガイド付き木探索はBoNより平均正解率が6.2%低いことを確認した。原因として、PRMが前進しない非決定的なステップを高く評価する傾向があり、解答が冗長化して制限ステップ内で解に到達できなくなること、さらに初期ステップにおいて誤った推論に高得点を与える低信頼性を持つことを明らかにした。本研究は、PRMベース手法の根本的課題を示し、今後のテスト時スケーリングおよびPRM設計の改善に有用な知見を提供する。