[1D5-GS-9-03]日本語の文字種を考慮した単語の分散表現の学習手法
〇平出 聡1、田中 瑛一1、大西 健司1(1. 富士ゼロックス株式会社)
キーワード:
単語の分散表現、日本語、文字種
本稿では,単語の分散表現において,日本語の文字種により異なるルールを適用しサブワードを抽出する学習手法を提案する.これまで,文字のn-gramを利用するFastTextを代表として,単語をサブワードに分割することでより性能の良い分散表現を学習する手法が提案されてきた.しかし,既存手法には分割前の単語の意味と無関係な意味をもつサブワードが出現するという問題が残されている.これに対して提案手法は,日本語における漢字とひらがな・カタカナの性質の違いに着目することで無関係なサブワードの出現を抑制し,さらによりよい分散表現を学習する.単語の分散表現の類似度タスクによる評価の結果,提案手法の優位性が確認された.
