Presentation Information

[2F5-OS-19a-03]Lost in the Files: A Comparison of Long-Context LLMs and RAG for Comprehensive Information Extraction from Multiple Specialized Documents

〇Shota Sato1, Kei Furukawa2, Kazuya Ikoma2, Atom Sonoda1 (1. Lightblue KK, 2. Shimizu Corporation)

Keywords:

Large Language Models,Document Understanding,Comprehensive Information Extraction,Retrieval-Augmented Generation,Benchmark Evaluation

実務の意思決定やリスク管理において,複数の専門文書を横断した網羅的な情報抽出は不可欠である.本研究では,長コンテキストLLMへのPDF直接入力と検索拡張生成技術RAGの有効性を比較検証した.類似構造を持つ文書が複数年度にわたり蓄積される典型例として有価証券報告書を対象に,情報の記述配置や処理様式が異なる3つのタイプに分けた質問を設計し,両手法の抽出再現率を評価した.分析の結果,RAGは局所的に集約された情報の検索で優位性を示す一方,章全体に連続する情報の網羅的な取得にはチャンク境界の制約が構造的限界となることが明らかになった.全文入力は連続記述を順次読解する場合は安定的に高精度を維持したが,文書数増加と条件判定負荷が重なると情報の欠落や年度混同が顕在化した.本稿では,これらの知見に基づき,タスク特性と文書構造に応じた手法選択の指針を提示する.

Comment

To browse or post comments, you must log in.Log in