講演情報
[1Yin-A-26]識別器による選別とインコンテキストラーニングの反復で実データ分布に近づける表形式データ合成
〇山倉 司1、佐々木 耀一1、岡嶋 穣1 (1. 日本電気株式会社)
キーワード:
大規模言語モデル、データ拡張、表形式データ
本論文では,識別器による選別とインコンテキストラーニング(ICL)を反復することにより実データ分布に近づけていく表形式データの合成法を提案する.大規模言語モデル(LLM)によってデータを合成し,合成データと実データを識別器で判別することで,合成データに不足している特性を持つ実データ中のサンプルを選ぶ.それらをICLのプロンプトとしてLLMに与えることで,不足している特性を持つ新たな合成データを生成する.さらに識別器で実データらしさを評価することで,合成データから低品質や冗長なものを除去する.これにより,本手法はLLMによるデータ合成の課題である分布の偏りを抑え,実データと分布が近い合成データを生成することができる.3つの表形式データセット上で先行研究のTABGEN-ICLと比較を行い,Train on Synthetic,Test on RealのAUCを最大2%以上改善し,実データと合成データの分布間の距離であるWasserstein距離を大幅に削減することを示す.
