講演情報
[5L3-OS-6b-01]大規模言語モデルを用いたトピックラベリング戦略と品質評価
〇佐藤 大允1、岡本 一志1、軽部 幸起1、原田 慧1、柴田 淳司1 (1. 電気通信大学)
キーワード:
トピックラベリング、トピックモデル、大規模言語モデル、プロンプトエンジニアリング
トピックモデルが出力する単語リストは人間による解釈が困難であり,既存の大規模言語モデル(LLM)を用いた自動ラベリングもトピックワードのみに依存するため,文脈情報が不足しやすいという課題がある.そこで本研究では,ラベルの品質向上を目的とし,トピックワードに加えて,トピックへの帰属度に基づく代表文書を入力する手法を提案し,4つの文書サンプリング戦略の有効性をベースライン(トピックワードのみ)と比較検証した. 評価には専門家による整合性評価アンケートと,ラベル・トピック内文書間のコサイン類似度を用いた.その結果,帰属度が中程度の文書を用いる戦略が,アンケート評価(平均5.59)でベースライン(5.53)を上回っただけでなく,類似度評価の平均順位においても1.6位と最も優れた性能を示した.本結果は,適切なサンプリング戦略の導入がトピックラベルの品質向上に寄与することを示唆している.
