講演情報
[3K1-OS-27a-05]多様な表形式のデータに対してロバストなJ-REIT投資物件情報の構造化手法の提案
〇田中 麻由梨1、土井 惟成1 (1. 株式会社日本取引所グループ)
キーワード:
大規模言語モデル、不動産投資信託、有価証券報告書、表構造解析、不動産情報
本研究では、日本の不動産投資法人が開示する不動産投資信託(J-REIT)の有価証券報告書に含まれる、多様な表形式のデータで構成される物件情報に対し、大規模言語モデルを利用することでロバストな構造化手法を提案する。J-REITの投資物件情報は、不動産投資法人ごとに多様なフォーマットで記述されており、自動的な構造化データの作成が困難となっている。先行研究では、不動産投資法人ごとにサンプルを作成し、それを入力に用いたFew-shotプロンプティングにより高い構造化の精度を実現していたものの、このサンプルの作成のコストは大きい。そこで本研究では、不動産投資法人別に用意していたプロンプトを共通化し、低コストでJ-REIT投資物件情報を構造化する手法を提案する。具体的には、J-REIT投資物件情報として含まれ得る変数の網羅的な調査を踏まえ、情報の欠落が少なく、かつ大規模言語モデルにより変換しやすい出力形式を検討した。実験の結果、任意の不動産投資法人において共通のプロンプトを用いて、高品質なJ-REIT投資物件情報のデータセットの構築に係る運用が可能となる見通しを得た。
