Presentation Information

[1Yin-A-26]Tabular Data Synthesis Approaching the Real Data Distribution via Iterative Discriminator-Based Selection and In-Context Learning

〇Tsukasa Yamakura1, Yoichi Sasaki1, Yuzuru Okajima1 (1. NEC Corporation)

Keywords:

Large Language Model,Data Augmentation,Tabular Data

本論文では,識別器による選別とインコンテキストラーニング(ICL)を反復することにより実データ分布に近づけていく表形式データの合成法を提案する.大規模言語モデル(LLM)によってデータを合成し,合成データと実データを識別器で判別することで,合成データに不足している特性を持つ実データ中のサンプルを選ぶ.それらをICLのプロンプトとしてLLMに与えることで,不足している特性を持つ新たな合成データを生成する.さらに識別器で実データらしさを評価することで,合成データから低品質や冗長なものを除去する.これにより,本手法はLLMによるデータ合成の課題である分布の偏りを抑え,実データと分布が近い合成データを生成することができる.3つの表形式データセット上で先行研究のTABGEN-ICLと比較を行い,Train on Synthetic,Test on RealのAUCを最大2%以上改善し,実データと合成データの分布間の距離であるWasserstein距離を大幅に削減することを示す.