講演情報

[1Yin-A-46]自己教師あり音声モデルの韻律・音素情報獲得過程における層別分析

〇谷端 真瑠1、高橋 舜1、大内 啓樹1、サクティ サクリアニ1 (1. 奈良先端科学技術大学院大学)

キーワード:

知識抽出

自己教師あり音声モデルは,教師ラベルなしで汎用的な音声表現を獲得できる一方で,事前学習のどの段階で,どの層に,音素や韻律などの情報が形成されるのかは十分に分かっていない。この理解は,下流タスクで適切な層を選ぶ指針になるだけでなく,モデルの学習ダイナミクスや表現の発達過程を説明する上でも重要である。そこで本研究ではHuBERT-Baseを対象に,事前学習の2段階(stage 1 / stage 2)にわたって50kステップごとのチェックポイントを用意し,各Transformer層から表現を抽出して層別プロービングを行う。分析にはTIMITによる音素分類,TextrolSpeechによる韻律分類(pitch・energy・tempo)を用いた。分析の結果,韻律と音素では情報が現れやすい層や学習の進み方に違いが見られ,学習段階の切り替えに伴って有効な層が移る傾向も確認された。これらの知見は,HuBERT表現が段階的に形成される様子を捉える手がかりとなり,下流タスクにおける層選択や分析設計に有用な示唆を与える。