講演情報

[3Yin-A-49]Multi-hop推論を要する企業文書QAベンチマーク

〇尾崎 大晟1,2、太田 幹1、上林 勇太1、長谷 航記1 (1. 株式会社松尾研究所、2. 大阪公立大学大学院)

キーワード:

ベンチマーク データセット、Tool use、強化学習

企業のメールやドキュメントには,組織階層,プロジェクト関係,時系列的な文脈といった暗黙的な構造が存在する.このような構造を活用した検索は,単純なセマンティック検索では困難であり,エージェントによる反復的な探索が必要となる.本研究では,こうした暗黙的構造の学習可能性を検証するため,Enronメールコーパスを用いたMulti-hop-EnronQAベンチマークを提案する.本ベンチマークは,送受信者間の関係性,メールスレッドの文脈,組織内の役割に基づく推論を要するマルチホップ質問で構成される.我々は,メール検索強化学習モデルを含む複数のプロプライエタリおよびオープンソースモデルを比較し,精度,ツール効率,コストの観点から評価する.さらに,訓練済みモデルのツール呼び出しパターンを定性的に分析し,暗黙的構造学習がどの程度達成されたかを検証する.