講演情報

[3E1-GS-2d-04]ゼロ行動正則化を用いた視点変化に頑健な潜在行動学習

〇高円 悠聖1、鈴木 雅大1、松尾 豊1 (1. 東京大学)

キーワード:

潜在行動、模倣学習、表現学習

ロボットの動作生成において,行動ラベルを含まない動画から方策を学習する潜在行動学習は,データ収集コストを抑えられる点で注目されている.一方,潜在行動は観測間の変化を説明するよう学習されるため,行動と無関係な視覚的変動(Distraction)が大きい環境では外観変動に引きずられ,制御に有用な表現を得にくいことが課題として存在する.代表的なDistractionとして視点変化が挙げられるが,視点変化が既存手法に与える影響は十分に検証されていない.本研究では,既存ベンチマークに視点変化のみを導入して既存手法を評価し,視点変化強度の増大に伴い学習済み方策のロールアウト性能が顕著に劣化することを定量的に示す.さらに,視点変化に頑健な潜在行動学習のため Zero-Action Regularization (ZAR) を提案する.ZAR は同一観測ペアから推論される行動をゼロに近づけ,潜在行動空間の基準を定めることで,視点変化下でも行動出力の不変性を促す.実験の結果,既存モデルに ZAR を組み込んだ提案手法は,視点変化環境で既存手法より高いロールアウト性能を達成することを示す.