講演情報
[4E-03]大規模言語モデルによる生成文書・生成クエリを用いた検索モデルの学習と分析
*仲地 優登1、加藤 誠2 (1. 筑波大学 大学院人間総合科学学術院 知識獲得システム研究室、2. 筑波大学 図書館情報メディア系)
発表者区分:学生
論文種別:ロングペーパー
インタラクティブ発表:あり
論文種別:ロングペーパー
インタラクティブ発表:あり
キーワード:
情報検索、検索モデル、AIGC、クエリ拡張、学習データ作成
本研究では,LLMによって生成されたLLM生成文書やLLM生成クエリを学習データに含めた検索モデルが,アドホック検索タスクの性能や順位付けの傾向に及ぼす影響を明らかにする.
具体的には,人間作成文書・LLM生成文書・類義語生成文書および人間作成クエリ・LLM生成クエリ・類義語生成クエリを組み合わせた複数の学習データセットを用いてモデルを学習し,評価時にも作成方法の異なるクエリを用いて,複数のコーパスで性能比較を行う.
これにより,(1) LLM生成文書で学習したモデルと人間作成文書で学習したモデルの性能差,(2) 人間作成文書・LLM生成文書が混在する時の上位に提示される文書の傾向,(3) LLM生成クエリで学習したモデルの人間作成クエリに対する検索性能を検証する.
実験の結果,汎用的ドメインではLLM生成文書を含む学習がBM25を上回る有効性をもたらす一方,専門ドメインでは学習文書タイプと検索対象の文書タイプの整合性が重要であることが示唆された.また,LLM生成文書を用いて学習したモデルは混在コーパスでLLM生成文書を上位に提示しやすい傾向が明確となり,類義語生成文書データセットでも同様の傾向が観察された.さらに,学習段階からLLM生成クエリを導入した場合,クエリ分布の不一致により人間作成クエリでの性能に影響が生じることが明らかとなった.
具体的には,人間作成文書・LLM生成文書・類義語生成文書および人間作成クエリ・LLM生成クエリ・類義語生成クエリを組み合わせた複数の学習データセットを用いてモデルを学習し,評価時にも作成方法の異なるクエリを用いて,複数のコーパスで性能比較を行う.
これにより,(1) LLM生成文書で学習したモデルと人間作成文書で学習したモデルの性能差,(2) 人間作成文書・LLM生成文書が混在する時の上位に提示される文書の傾向,(3) LLM生成クエリで学習したモデルの人間作成クエリに対する検索性能を検証する.
実験の結果,汎用的ドメインではLLM生成文書を含む学習がBM25を上回る有効性をもたらす一方,専門ドメインでは学習文書タイプと検索対象の文書タイプの整合性が重要であることが示唆された.また,LLM生成文書を用いて学習したモデルは混在コーパスでLLM生成文書を上位に提示しやすい傾向が明確となり,類義語生成文書データセットでも同様の傾向が観察された.さらに,学習段階からLLM生成クエリを導入した場合,クエリ分布の不一致により人間作成クエリでの性能に影響が生じることが明らかとなった.