講演情報

[5E1-GS-6d-01]単位超球面上の文埋め込みに基づく潜在トピックモデル

〇小林 涼太郎1、村山 友理1、和泉 潔1 (1. 東京大学大学院)

キーワード:

潜在トピックモデル、文埋め込み、von Mises-Fisher 分布

トピックモデルは文書集合に対して解釈可能な低次元表現を与える手法として広く利用されている.しかし,単語の共起に基づく標準的なモデルでは,語順や文脈の違いに起因する意味的差異を十分に反映できない場合がある.文を連続ベクトルとして表現する文埋め込みを用いることで,語順や文脈情報を考慮して,より細粒度で意味的に一貫したトピック構造を捉えられると期待できる.文の意味的類似性の指標としては埋め込み間のコサイン類似度が広く用いられていることから,正規化した文埋め込みを単位超球面上の確率分布としてモデリングすることは自然である.そこで本研究では,文書を正規化した文埋め込みの集合として表現し,各トピックを単位超球面上の von Mises–Fisher 分布として定式化する潜在トピックモデルを提案する.提案手法は,同様に文埋め込みを用いて各トピックをユークリッド空間上のガウス分布としてモデル化する既存手法と比較して,計算効率の観点で優れている.また,提案手法を用いることで,先の既存手法やLDA,ニューラルトピックモデルなどの他手法と比較して,より高品質なトピックが得られることを実験的に確認する.