講演情報
[4Yin-A-26]RAGの精度向上のためのキーワード抽出と情報源別ランキングによる段階的情報絞り込み
〇土屋 祐太1、間瀬 正啓1、松葉 浩也2 (1. 株式会社日立製作所、2. 株式会社日立パワーソリューションズ)
キーワード:
キーワード抽出、検索拡張生成、産業応用、大規模言語モデル、段階的クエリ
産業インフラ設備における故障原因特定などの保守業務を支援するため、大規模言語モデル(LLM)に外部文書を参照させて応答を生成する検索拡張生成(RAG)が期待されている。これらの業務では、対象設備に適合する文書集合の絞り込みと、根拠の文書横断的な取得が求められる。しかし、従来の類似度検索はクエリとの類似度のみで順位付けを行うため、情報源の偏りや微差文書の混在を招きやすく、十分に対応できない。さらに、設備更新に伴い一部の重要部分のみが異なる類似文書の増加により、適切な検索は一層困難となっている。本研究では、文書適合性と根拠網羅性を低コストかつ安定して両立する段階的検索手法を提案する。具体的に、(1)LLMによるキーワード抽出、(2)メタデータによる文書絞り込み、(3)トピック重み付き情報源別ランキングから構成される。軽量なキーワード抽出を起点にハルシネーションや推論コストを抑えつつ、情報源別ランキングにより文書適合性と根拠多様性を同時に実現する。MultiHop-RAGを用いた評価では、標準的なハイブリッド検索と比較してRecall@4を29.7%向上させ、生成性能においてもF1スコア0.749(従来 0.716)を達成した。
