The 40th Annual Conference of the Japanese Society for Artificial Intelligence, 2026

Presentation Information

[1Yin-A-26]Tabular Data Synthesis Approaching the Real Data Distribution via Iterative Discriminator-Based Selection and In-Context Learning

〇Tsukasa Yamakura¹, Yoichi Sasaki¹, Yuzuru Okajima¹ (1. NEC Corporation)

Keywords:

Large Language Model,Data Augmentation,Tabular Data

本論文では，識別器による選別とインコンテキストラーニング（ICL）を反復することにより実データ分布に近づけていく表形式データの合成法を提案する．大規模言語モデル（LLM）によってデータを合成し，合成データと実データを識別器で判別することで，合成データに不足している特性を持つ実データ中のサンプルを選ぶ．それらをICLのプロンプトとしてLLMに与えることで，不足している特性を持つ新たな合成データを生成する．さらに識別器で実データらしさを評価することで，合成データから低品質や冗長なものを除去する．これにより，本手法はLLMによるデータ合成の課題である分布の偏りを抑え，実データと分布が近い合成データを生成することができる．3つの表形式データセット上で先行研究のTABGEN-ICLと比較を行い，Train on Synthetic，Test on RealのAUCを最大2%以上改善し，実データと合成データの分布間の距離であるWasserstein距離を大幅に削減することを示す．

Back to Session information