Presentation Information
[1Yin-B-10]RT-QMC: Robust Initial Training Data Selection via Rank-Based Transformation and Quasi-Monte Carlo Sampling
〇Toshikazu Tayanagi1 (1. Sansan, Inc.)
Keywords:
training data selection,Order Statistic,Quasi-Monte Carlo,Machine Learning
本研究では、事前学習済みモデルの特徴空間から一度の操作でアノテーション対象を選定する初期データ構築に焦点を当て、Rank-Transformation Quasi-Monte Carlo(RT-QMC)を提案する。学習開始前のラベル未付与データセットにおいて、既存手法は特徴空間の密度変動や外れ値の影響を受けやすく、選択が偏る課題がある。これに対し提案手法は、順序変換による空間歪みの補正と準モンテカルロ点列を統合することで、データの疎密に左右されず、特徴空間の全域からバランスよくサンプルを抽出する。このプロセスにより、特定の局所領域に依存しない網羅的なサンプル抽出が可能となる。CIFAR-10およびSVHNを用いた評価実験の結果、RT-QMCはクラス不均衡設定において分類精度を向上させ、均衡設定でもランダムサンプリングと同等の精度を示した。また、t-SNEを用いた可視化分析により、本手法の有効性は分布のクラスタ構造を反映した高い網羅性に起因することが示された。RT-QMCはアノテーション対象を選定する手法として、安全かつ信頼性の高い選択肢の1つであることが示唆される。
