セッション詳細

[5M1-GS-2b]機械学習:強化学習と模倣学習

2026年6月12日(金) 9:00 〜 10:30
M会場(中会議室302A)

[5M1-GS-2b-01]限られた計算資源で効率的な意思決定が可能な AlphaZeRS

渡邉 拓巳1、〇高内 優1、鎌田 佑2、櫻岡 良樹2、甲野 佑1、高橋 達二1 (1. 東京電機大学、2. 東京電機大学大学院)

[5M1-GS-2b-02]Cross Bisimulationに基づく暗黙的模倣学習によるサンプル効率的な強化学習

〇今川 孝久1、榎田 修一1 (1. 九州工業大学)

[5M1-GS-2b-03]回収現金の再利用を可能とするバランス警送問題のための強化学習モデル

〇宮島 龍冴1、近藤 愛1、玉井 秀明1 (1. 沖電気工業株式会社)

[5M1-GS-2b-04]GNNによる潜在空間を利用した空調制御のためのモデルベース強化学習

〇長谷川 輝彰1、許 子微1、市瀬 龍太郎1 (1. 東京科学大学)

[5M1-GS-2b-05]マルコフ決定過程におけるSeqBDDを用いた全列挙方策

〇石原 皐太郎1、渕本 壱真2、植野 真臣1 (1. 電気通信大学、2. 大学入試センター)

[5M1-GS-2b-06]日本語大規模言語モデルに対するGRPOのみを用いたSFT非依存RL事後学習の評価日本語LLMに対するR1-Zero likeな事後学習手法の多目的評価

〇辻 直矢1 (1. 角川ドワンゴ学園S高等学校)