The 40th Annual Conference of the Japanese Society for Artificial Intelligence, 2026

Presentation Information

2:15 PM - 2:30 PM JST(5:15 AM - 5:30 AM UTC)

[2G4-OS-47a-04]Quantitative Evaluation of Camera Placement Effects on VLA Task Success

〇Akira Tokiwa¹, Shohei Matsugu¹, Yuya Takahashi¹, Hirotaka Niisato¹ (1. GMO Internet Group, Inc.)

Keywords:

Vision-Language-Action,Simulation,Fine-tuning

VLAモデルの実運用において、固定カメラの構成はタスク成功率を左右する重要な設計要素であるが、成功率の観点から定量的に比較した研究は限られている。本研究では、シミュレーション上の半天球に固定カメラを離散配置し、同一エピソードからカメラ構成のみを変えて学習データを生成することで視点差以外の要因を統制した比較パイプラインを構築した。固定1台・2台および手先カメラの有無を組み合わせた4構成についてSmolVLAモデルの追加学習と成功率評価を行い、視野カバレッジ・視線直交性・ROI中心性からなるスコアリング指標との相関を分析した。実験の結果、手先カメラの追加により成功率が底上げされ視点選択への依存が質的に低減された一方、手先カメラ併用時には固定1台構成が2台構成を上回り、台数追加が必ずしも有効でないことが示された。また、視野カバレッジが最も有効な配置指標である一方、ROI中心性はアームの自己遮蔽とのトレードオフから負の相関を示し、手先カメラの追加によりこの負の相関は解消された。以上は幾何学的指標の限界と手先カメラの有効性を実証的に示すとともに、オクルージョンを考慮した指標の必要性を示唆する。

Back to Session information