講演情報

[5A-02]潜在的ディリクレ配分法と大規模言語モデルを利用した単一データに対する新しいタグづけ手法の検討

*竹本 智博1、福原 義久1 (1. 武蔵野大学 データサイエンス学部 データサイエンス学科 福原研)
発表者区分:学生
論文種別:ショートペーパー
インタラクティブ発表:あり

キーワード:

LLM、コーパス構築

本研究では、潜在的ディリクレ配分法を用いたトピックモデルと大規模言語モデルを利用した単一データに対する新しいタグづけ方法を提案する。既存の研究ではトピックモデルより得られたトピックをそのまま単一データのタグとする方法はあるが、この手法ではコーパスに対する単一のデータの特徴をよく表しているとは言いにくい。そこで本研究ではタグづけの際にLLMを用い、その単一データの特徴を表したタグを生成させることを目標とする。これにより、トピックモデルが持つ、複数のトピックを持つという利点を生かし、同じタグを持つ別のトピックを抽出したり、適切なタグづけによって検索条件をさらに絞ることなどが可能になる。