講演情報
[2K4-GS-7b-03]拡散Inpaintingモデルによる可視領域を活用したゼロショット分類
〇鈴木 涼太1、長谷川 達人1 (1. 福井大学大学院工学研究科)
キーワード:
拡散モデル、ゼロショット分類、Diffusion Classifier
近年,大規模視覚言語モデルの発展に伴い,追加学習不要なゼロショット画像分類が注目されている.中でもDiffusion ClassifierはCLIPを凌駕するロバスト性を示すが,正確な尤度推定のために多数の反復計算を必要とし,推論コストの肥大化が課題である.そこで本研究では,Inpaintingモデルの欠損領域を周囲の可視領域から補完する能力に着目し,従来のテキストによる条件付けに加えて,可視領域による条件付けとの整合性を考慮した,新たなゼロショット画像分類手法を提案する.Stable Diffusion v1.5をベースにSD-Inpaint等と比較検証した結果,中間層へ特徴注入を行うBrushNetは,他手法での精度低下を回避し,ベースラインと同等の識別能力を維持した.さらに,推論初期段階で従来より高い精度を達成し,推論効率の向上に寄与することを示した.本研究は,Inpaintingモデルによる可視領域の活用がノイズ予測の不確実性を低減させ,拡散モデルを用いた分類の実用性を高める有効なアプローチであることを示唆している.
