Presentation Information

[2F5-OS-19a-04]A RAG System for Technical Document Retrieval Based on Figure and Table Understanding

〇Ryoya Shiraiwa1, Hiroki Yamada1, Takayoshi Fujioka2 (1. Hitachi, Ltd., 2. Hitachi Industrial Equipment Systems Co., Ltd.)

Keywords:

LLM,RAG,Multimodal

産業機器の仕様書などの技術文書は膨大な種類・ページ数があるため、必要な情報を効率的に検索する技術が求められている。これら技術文書では、データシートや性能曲線グラフなどの図表に重要な情報が集約されている。しかし、対話ベースで文書から情報を検索する技術であるRAG (Retrieval-Augmented Generation)は、テキストベースで情報を管理する方法であるために、図表情報を検索できないという課題があった。そこで本研究では、図表を豊富に含むドキュメント群から、より正確で包括的な情報を検索することを目的とし、マルチモーダルな情報を統合的に扱う高度なRAGを構築した。具体的には、マルチモーダルLLM(Large Language Model)を活用し、メタデータとしてドキュメント及びページ範囲毎の概要をまとめておくことで、質問に関連するドキュメントを絞り込むというアプローチである。検証の結果、従来のRAGと比較して、図表情報の検索精度が向上したことを確認した。

Comment

To browse or post comments, you must log in.Log in