講演情報

[4Yin-A-57]事前学習済みT5言語モデルを用いた同形異音語のZero-Shot条件下における読み推定

〇平田 朝也1、竹内 和広1 (1. 大阪電気通信大学)

キーワード:

同形異音語、読み曖昧性解消、T5、ゼロショット

日本語には同一の表記でありながら複数の読みを持つ同形異音語が存在する.先行研究では文脈情報を利用した読みの曖昧性解消手法が提案されており,特にBERT等のモデルを用いたクラス分類タスクとして定式化する手法が主流となっている.本研究では,同形異音語の読み推定を新たに生成タスクとして再定義し,空所補完形式による推定手法を提案する.具体的には,対象単語の直後に全角括弧で囲んだマスクトークンを挿入し,デコーダによってその読みを平仮名で生成させる.248件の同形異音語からなるTatoebaの33,877例で評価した結果,T5のマイクロ平均正解率は0.863であり,GiNZAは0.915であった.語単位の分析では補完関係が確認され,T5は文脈依存の読み分けで改善する一方,語彙化した読みには弱いことが分かった.