セッション詳細
[5M1-GS-2b]機械学習:強化学習と模倣学習
2026年6月12日(金) 9:00 〜 10:30
M会場(中会議室302A)
[5M1-GS-2b-01]限られた計算資源で効率的な意思決定が可能な AlphaZeRS
渡邉 拓巳1、〇高内 優1、鎌田 佑2、櫻岡 良樹2、甲野 佑1、高橋 達二1 (1. 東京電機大学、2. 東京電機大学大学院)
[5M1-GS-2b-06]日本語大規模言語モデルに対するGRPOのみを用いたSFT非依存RL事後学習の評価日本語LLMに対するR1-Zero likeな事後学習手法の多目的評価
〇辻 直矢1 (1. 角川ドワンゴ学園S高等学校)
