講演情報

[3Yin-A-62]音声特徴に基づく動機づけ面接エージェントの動作生成

〇山本崇史¹、二瓶芙巳雄¹、中野有紀子¹ (1. 成蹊大学)

キーワード：

動作生成、動機づけ面接、バーチャルエージェント

本研究は，動機づけ面接（Motivational Interviewing: MI）対話におけるカウンセラー役エージェントの非言語行動生成を目的とし，発話音声特徴からカウンセラーの姿勢変化を生成する手法を提案する．まず，オンラインでのMI対話34本からカウンセラー発話区間を抽出してクリップ化し，単眼映像からSMPL-X形式の全身3D動作系列を復元することで，音声と動作が同期したMIデータセットを構築した．次に，(Yi et al, 2023)で提案されたTalkSHOWを基盤としてwav2vec 2.0で音声特徴を抽出し，VQ-VAEにより動作系列を離散表現へ変換した上で，自己回帰モデルにより音声条件付きで動作コード列を生成し，デコーダで連続的な姿勢系列へ復元した．評価では，(Yi et al, 2023)により提供されているTV showの司会者のデータで学習したモデル，コードブックのみMIデータで学習したモデル，コードブックと生成器の両方をMIデータで学習したモデルを比較し，生成系列長設定の影響も併せて検討した．生成動作の自然性，カウンセラーらしさを問う主観評価を実施した．

セッション詳細へ戻る