講演情報

[4G-04]汎用大規模言語モデルを活用した表形式データからのレポート自動生成

*芦川 晴基1、有本 昂平2、脇田 建1 (1. 東京科学大学情報理工学院、2. 株式会社帝国データバンク)
発表者区分:学生
論文種別:ロングペーパー
インタラクティブ発表:あり

キーワード:

レポート生成、テンプレート生成、秘匿データ、プロンプトエンジニアリング

本研究は、ビジネス現場における大規模表データの特徴説明文章の自動生成を目的としている。このためには、データからの効果的な特徴抽出と適切な言語化だけでなく、ビジネスでの利用を見据え、データを秘匿しながらの文章生成が要求される。本稿は、この問題に対処するために、外れ値検定とデータ空間の階層構造を活用した特徴的なデータの抽出、抽出されたデータの定式化とLLMを活用した定式のデータ言及文テンプレート化、テンプレートにより生成されたデータ言及文の整順化と文章への整形という、テンプレートベースの文章生成にLLMを組み込んだ三段階の手法を提案する。LLMの利用に際し、テンプレート生成段階ではデータを使用せず、公開ビジネスレポートへの整形段階で初めて実際のデータ値をLLMに入力する方針をとることで、公開対象以外の情報を秘匿しつつ柔軟な言語化を両立することを目指した。本手法は、システムとして実装したのちに、実験により有効性を示す。