講演情報

15:30 〜 15:45

[2E5-GS-10o-01]視覚言語モデルを用いた社会的配慮を伴うロボットナビゲーションのためのプロンプト設計

〇肖玲¹、山崎俊彦² (1. 北海道大学、2. 東京大学)

キーワード：

人間・ロボットインタラクション、社会的配慮を伴うナビゲーション、視覚言語モデル

近年，言語モデルは社会的ロボットナビゲーションに応用されつつあるが，意思決定能力が限定的な小規模視覚言語モデル（VLM）に対する体系的なプロンプト設計は十分に検討されていない。本研究では，学習および動機づけ理論に基づき，プロンプト設計を二つの観点から分析する。すなわち，(1) システムガイダンス（行動指向型，推論指向型，知覚–推論統合型），(2) 動機づけフレーミング（人間，他AI，過去の自己との競争）である。 SNEIデータセットを用いた実験の結果，以下の三点が明らかとなった。第一に，ファインチューニング済み小規模VLMでは，過去の自己との競争が最も有効である。第二に，不適切なシステムプロンプトは性能を大きく低下させ，単純なファインチューニングを下回る場合がある。第三に，ファインチューニングは主として意味レベルの指標を改善する一方，本研究のプロンプト設計は行動精度の向上により大きく寄与する。以上より，提案手法は表現強化ではなく，意思決定段階における制約機構として機能することが示唆された。

セッション詳細へ戻る