講演情報

[2F5-OS-19a-03]Lost in the Files:複数専門文書からの網羅的情報抽出における長コンテキストLLMとRAGの比較

〇佐藤 正太1、古川 慧2、生駒 和也2、園田 亜斗夢1 (1. 株式会社Lightblue、2. 清水建設株式会社)

キーワード:

大規模言語モデル、文書理解、網羅的情報抽出、検索拡張生成、ベンチマーク評価

実務の意思決定やリスク管理において,複数の専門文書を横断した網羅的な情報抽出は不可欠である.本研究では,長コンテキストLLMへのPDF直接入力と検索拡張生成技術RAGの有効性を比較検証した.類似構造を持つ文書が複数年度にわたり蓄積される典型例として有価証券報告書を対象に,情報の記述配置や処理様式が異なる3つのタイプに分けた質問を設計し,両手法の抽出再現率を評価した.分析の結果,RAGは局所的に集約された情報の検索で優位性を示す一方,章全体に連続する情報の網羅的な取得にはチャンク境界の制約が構造的限界となることが明らかになった.全文入力は連続記述を順次読解する場合は安定的に高精度を維持したが,文書数増加と条件判定負荷が重なると情報の欠落や年度混同が顕在化した.本稿では,これらの知見に基づき,タスク特性と文書構造に応じた手法選択の指針を提示する.

コメント

コメントの閲覧・投稿にはログインが必要です。ログイン