講演情報

[1Yin-A-23]投票率分布を用いた音声感情認識：追加学習と曖昧度活用CREMA-D と wav2vec2 感情表現を用いた比較検証

〇遠藤匠真¹、篠原修二¹、高野毅²、馬目信仁³、樋口政和⁴ (1. 東京電機大学、2. テキサス大学サンアントニオ校、3. 東京大学大学院医学系研究科疾患生命工学センター、4. 神奈川県立保健福祉大学ヘルスイノベーションスクールヘルスイノベーション研究科)

音声感情認識、曖昧性、客観ラベル

音声感情認識では客観(多数決)と主観(演者意図)が一致しない。本研究はCREMA-Dに対し、投票率6次元を学習する客観モデルを主観で微調整する二段階学習を検証した。主観のみ0.760に対し0.797を達成し、曖昧さ別分析で改善要因を示す。

コメントの閲覧・投稿にはログインが必要です。ログイン