Presentation Information
[5Yin-A-09]Proposal of an Proactive Speech Timing Estimation Method Using Audio, Visual Field Images, and Head Inertial Information
〇Naomasa Itakiyo1, Kazuya Mera1, Yoshiaki Kurosawa1, Toshiyuki Takezawa1 (1. Hiroshima City University)
Keywords:
Turn-taking,Multi Modal,Sharing Experience
本研究は,作業中ユーザに対してシステムが能動的に話しかけるためのタイミング推定を扱う.音声(A)・視野映像(V)・頭部慣性(I)をXRゴーグルで同期取得し,時刻t直前Wmsの観測からNms先t+Nの状態をwant/ok/ngで予測,want確率とng確率に対する二閾値で話しかけ可否を判定する.特徴は音声VAD統計6次元,映像オプティカルフロー統計8次元,慣性2次元の計16次元で,LightGBM/GRU/LSTMを比較した.WoZによるたこ焼き調理データ(評価5セッション,70.93分,11名)をセッション単位で分割し,want成功率とng非違反率の調和平均Hで評価した.時間パラメータdt∈{10,20,50,100}ms,W∈{800,1200,1600}ms,N∈{0,300,500,600,1200}msを探索し,検証データで閾値を調整した.結果としてA+V+IおよびA+Vが音声単独を上回り,時系列モデルが有利で,先読み(N>0)も不利でないことを確認した(LSTM A+V+IでH=0.6289).
