講演情報
[2E5-GS-10o-01]視覚言語モデルを用いた社会的配慮を伴うロボットナビゲーションのためのプロンプト設計
〇肖 玲1、山崎 俊彦2 (1. 北海道大学、2. 東京大学)
キーワード:
人間・ロボットインタラクション、社会的配慮を伴うナビゲーション、視覚言語モデル
近年,言語モデルは社会的ロボットナビゲーションに応用されつつあるが,意思決定能力が限定的な小規模視覚言語モデル(VLM)に対する体系的なプロンプト設計は十分に検討されていない。本研究では,学習および動機づけ理論に基づき,プロンプト設計を二つの観点から分析する。すなわち,(1) システムガイダンス(行動指向型,推論指向型,知覚–推論統合型),(2) 動機づけフレーミング(人間,他AI,過去の自己との競争)である。 SNEIデータセットを用いた実験の結果,以下の三点が明らかとなった。第一に,ファインチューニング済み小規模VLMでは,過去の自己との競争が最も有効である。第二に,不適切なシステムプロンプトは性能を大きく低下させ,単純なファインチューニングを下回る場合がある。第三に,ファインチューニングは主として意味レベルの指標を改善する一方,本研究のプロンプト設計は行動精度の向上により大きく寄与する。以上より,提案手法は表現強化ではなく,意思決定段階における制約機構として機能することが示唆された。
コメント
コメントの閲覧・投稿にはログインが必要です。ログイン
