講演情報
[3Yin-A-62]音声特徴に基づく動機づけ面接エージェントの動作生成
〇山本 崇史1、二瓶 芙巳雄1、中野 有紀子1 (1. 成蹊大学)
キーワード:
動作生成、動機づけ面接、バーチャルエージェント
本研究は,動機づけ面接(Motivational Interviewing: MI)対話におけるカウンセラー役エージェントの非言語行動生成を目的とし,発話音声特徴からカウンセラーの姿勢変化を生成する手法を提案する.まず,オンラインでのMI対話34本からカウンセラー発話区間を抽出してクリップ化し,単眼映像からSMPL-X形式の全身3D動作系列を復元することで,音声と動作が同期したMIデータセットを構築した.次に,(Yi et al, 2023)で提案されたTalkSHOWを基盤としてwav2vec 2.0で音声特徴を抽出し,VQ-VAEにより動作系列を離散表現へ変換した上で,自己回帰モデルにより音声条件付きで動作コード列を生成し,デコーダで連続的な姿勢系列へ復元した.評価では,(Yi et al, 2023)により提供されているTV showの司会者のデータで学習したモデル,コードブックのみMIデータで学習したモデル,コードブックと生成器の両方をMIデータで学習したモデルを比較し,生成系列長設定の影響も併せて検討した.生成動作の自然性,カウンセラーらしさを問う主観評価を実施した.
