講演情報

[1Yin-A-26]識別器による選別とインコンテキストラーニングの反復で実データ分布に近づける表形式データ合成

〇山倉司¹、佐々木耀一¹、岡嶋穣¹ (1. 日本電気株式会社)

キーワード：

大規模言語モデル、データ拡張、表形式データ

本論文では，識別器による選別とインコンテキストラーニング（ICL）を反復することにより実データ分布に近づけていく表形式データの合成法を提案する．大規模言語モデル（LLM）によってデータを合成し，合成データと実データを識別器で判別することで，合成データに不足している特性を持つ実データ中のサンプルを選ぶ．それらをICLのプロンプトとしてLLMに与えることで，不足している特性を持つ新たな合成データを生成する．さらに識別器で実データらしさを評価することで，合成データから低品質や冗長なものを除去する．これにより，本手法はLLMによるデータ合成の課題である分布の偏りを抑え，実データと分布が近い合成データを生成することができる．3つの表形式データセット上で先行研究のTABGEN-ICLと比較を行い，Train on Synthetic，Test on RealのAUCを最大2%以上改善し，実データと合成データの分布間の距離であるWasserstein距離を大幅に削減することを示す．

セッション詳細へ戻る