講演情報

[1Yin-A-60]質問ベースインデックスによる検索拡張生成 (RAG) の高精度化

〇山口 武彦1、岩間 太1、竹内 幹雄1、立堀 道昭1 (1. 日本アイ・ビー・エム株式会社)

キーワード:

検索拡張生成、質問に基づくインデックス手法

RAGシステムは、ベクトルデータベースを用いて関連文書チャンクを検索し、LLMにモデル外知識を供給する。しかし、疑問文として表現されるユーザークエリと平叙文として格納される文書チャンクの間には語用論的な意味の差異が存在し、検索性能の低下を招く。
本論文では、各文書チャンクから想定される質問を生成し、それをベクトルDBのキーとして使用する新手法を提案する。手法は4ステップで構成される:1) 文書のチャンキング、2) LLMによる質問生成、3) 質問の埋め込み、4) 質問埋め込みをキーとしたインデックス化。
最後に、生成質問が元チャンクよりユーザークエリに近い位置に配置され、検索指標での改善が実現するのを確かめるため、CLAP NQデータセットでの評価実験のデザインを論じる。本手法は一度格納した後に何度もクエリするようなオフライン処理に適している。