講演情報

[2K4-GS-7b-06]拡散モデルによる画像生成におけるBest-of-N性能向上のための多様性を考慮したMax@k最適化

〇小野田 空羽1、大島 佑太1、谷口 尚平1、西森 創一朗1、パラマス パーヴォ1、古田 拓毅、松尾 豊1 (1. 東京大学)

キーワード:

画像生成、拡散モデル、強化学習

拡散モデルを用いた画像生成における強化学習では,単一の生成サンプルに対する期待報酬を最大化する手法が主流である.一方で実運用では,複数の候補を生成して最良のものを選択する Best-of-N(BoN)戦略が広く用いられる.標準的な最適化は,高報酬な単一モードへ生成分布を収束させやすく,生成多様性が失われる.その結果,BoN によって本来得られるはずの改善余地が,候補間の多様性不足によって制限されてしまう. 本論文では,多様性を保ちながら max@k 目的(k 個の候補のうち最大報酬を最大化する目的)を直接最適化する,多様性考慮型の最適化手法を提案する.具体的には,基盤モデルが内在的にもつ意味的クラス構造を利用し,生成サンプルを互いに異なるセマンティッククラスへ誘導することで,モード崩壊を抑制する.これにより,候補集合が多様な高報酬領域を広くカバーし,画像生成における BoN サンプリングの効果を引き出せることを保証する.実験の結果,提案手法は生成多様性を維持したまま,標準的ベースラインよりも優れた BoN 性能を達成することを示した.