Presentation Information

[1Yin-A-63]Evaluating the Distributional Fidelity of TabDiff on Tabular Data with a Dominant Majority Value

〇Naoki Ikeda1, Tomoki Oya1, Masato Taya1 (1. KDDI Research, Inc.)

Keywords:

Diffusion Model,Synthetic Data

拡散モデルTabDiffはテーブルデータに対する合成データ生成において高い分布再現性能を示すことが知られているが,これまでは単一の値が大部分を占めるデータセット(本稿では「支配的多数派値を含むデータセット」と呼ぶ)における性能については未解明であった.本研究では,そのようなデータセットに対するTabDiffの分布再現性能を評価した.まず,支配的多数派値を含む/含まないデータセット間で精度比較をした結果,前者の??-Precisionの低下が見られた.さらに,少数派値における合成データと実データの分布差に有意(p<0.01)な差が確認された.本結果から,TabDiffが少数派値の分布を正確に再現できず,TabDiffの適用に課題があることが確認された.