講演情報
[1Yin-A-50]文書構造グラフによる規定文書QAの根拠補完型RAG
〇平山 大世1、松藤 彰宏2、小川 祐輝2、坂地 泰紀1、野田 五十樹1 (1. 北海道大学、2. パナソニック株式会社)
キーワード:
規定文書QA、検索拡張生成(RAG)、文書構造グラフ、階層ブロック化、根拠回収
規格・法令などの規定文書QAでは,回答の正否だけでなく,根拠条項を漏れなく提示することが求められる.
固定長チャンクに基づく一般的なRAGは,文書構造を考慮しないため,見出し階層や箇条書き,参照(前項・条番号)により文脈が分断され,列挙の欠落や異質根拠の混入が起きやすい.
本研究では,文書を見出し階層と箇条書きを保持する階層ブロックに構造化し,親子・兄弟・参照関係から文書内構造に基づく文書構造グラフを構築する.
ブロック検索の上位候補をシードとして近傍へスコアを伝播し,分散した根拠を補完する根拠補完型RAGを提案した.
検索(根拠回収)と回答生成の両面で比較評価した結果,固定長チャンクに基づくベクトル検索に比べて根拠回収の網羅性が高まり,複数根拠を要する設問で根拠集合の欠落が減少した.
さらに,根拠提示を伴う回答生成でも引用の整合性が改善する傾向が確認された.
固定長チャンクに基づく一般的なRAGは,文書構造を考慮しないため,見出し階層や箇条書き,参照(前項・条番号)により文脈が分断され,列挙の欠落や異質根拠の混入が起きやすい.
本研究では,文書を見出し階層と箇条書きを保持する階層ブロックに構造化し,親子・兄弟・参照関係から文書内構造に基づく文書構造グラフを構築する.
ブロック検索の上位候補をシードとして近傍へスコアを伝播し,分散した根拠を補完する根拠補完型RAGを提案した.
検索(根拠回収)と回答生成の両面で比較評価した結果,固定長チャンクに基づくベクトル検索に比べて根拠回収の網羅性が高まり,複数根拠を要する設問で根拠集合の欠落が減少した.
さらに,根拠提示を伴う回答生成でも引用の整合性が改善する傾向が確認された.
