講演情報

[2F6-OS-19b-02]マルチモーダル生成AIモデルを用いた金融非構造化データからの情報抽出

〇伊藤 克哉1、中川 慧2 (1. 株式会社INDX、2. 大阪公立大学)

キーワード:

非構造化データ、金融工学、決算書分析

有価証券報告書からの表情報抽出は,複雑なレイアウトや結合セル,多階層ヘッダの存在により困難な課題である.
本研究では,視覚言語モデル(VLM)を用いた表構造化において,テキスト処理と画像処理の二軸から体系的に最適化する手法を提案する.テキスト処理では,単純なMarkdown変換にとどまらず,ドメイン知識のガイダンス注入,出力トークン制約による幻覚抑制,文書コンテキストの自動付与を行い,VLMの解釈精度を向上させる.画像処理では,フォントサイズ・罫線・DPI等のレンダリングパラメータを体系的に評価し,視覚的明瞭性の最適化が精度に支配的な影響を持つことを明らかにした.両軸の定量的比較により,画像処理が最大の精度向上要因である一方,テキスト処理のガイディングも相補的に寄与することを示した.UFO-2024データセットにおいて,提案手法はセル特定精度88.2%,値抽出精度86.5%を達成した.

コメント

コメントの閲覧・投稿にはログインが必要です。ログイン