講演情報

14:00 〜 14:15

[2K4-GS-7b-03]拡散Inpaintingモデルによる可視領域を活用したゼロショット分類

〇鈴木涼太¹、長谷川達人¹ (1. 福井大学大学院工学研究科)

キーワード：

拡散モデル、ゼロショット分類、Diffusion Classifier

近年，大規模視覚言語モデルの発展に伴い，追加学習不要なゼロショット画像分類が注目されている．中でもDiffusion ClassifierはCLIPを凌駕するロバスト性を示すが，正確な尤度推定のために多数の反復計算を必要とし，推論コストの肥大化が課題である．そこで本研究では，Inpaintingモデルの欠損領域を周囲の可視領域から補完する能力に着目し，従来のテキストによる条件付けに加えて，可視領域による条件付けとの整合性を考慮した，新たなゼロショット画像分類手法を提案する．Stable Diffusion v1.5をベースにSD-Inpaint等と比較検証した結果，中間層へ特徴注入を行うBrushNetは，他手法での精度低下を回避し，ベースラインと同等の識別能力を維持した．さらに，推論初期段階で従来より高い精度を達成し，推論効率の向上に寄与することを示した．本研究は，Inpaintingモデルによる可視領域の活用がノイズ予測の不確実性を低減させ，拡散モデルを用いた分類の実用性を高める有効なアプローチであることを示唆している．

セッション詳細へ戻る