講演情報

[1Yin-A-23]投票率分布を用いた音声感情認識:追加学習と曖昧度活用CREMA-D と wav2vec2 感情表現を用いた比較検証

〇遠藤 匠真1、篠原 修二1、高野 毅2、馬目 信仁3、樋口 政和4 (1. 東京電機大学、2. テキサス大学サンアントニオ校、3. 東京大学大学院 医学系研究科 疾患生命工学センター、4. 神奈川県立保健福祉大学ヘルスイノベーションスクール ヘルスイノベーション研究科)

キーワード:

音声感情認識、曖昧性、客観ラベル

音声感情認識では客観(多数決)と主観(演者意図)が一致しない。本研究はCREMA-Dに対し、投票率6次元を学習する客観モデルを主観で微調整する二段階学習を検証した。主観のみ0.760に対し0.797を達成し、曖昧さ別分析で改善要因を示す。