講演情報
[6E-01]スタイル距離計算に基づく画像を入力とする画像生成AIモデル検索
*大江 優真1、ブ・ティ・ゴッグ アン1、ファム フーロン2、大島 裕明2、莊司 慶行1 (1. 静岡大学 情報学部、2. 兵庫県立大学 情報科学研究科)
発表者区分:学生
論文種別:ロングペーパー
インタラクティブ発表:あり
論文種別:ロングペーパー
インタラクティブ発表:あり
キーワード:
距離学習、LoRAモデル検索、画像生成AI、シャムネットワーク、Triplet Network
本論文は,事前学習済みの画像生成モデルを検索するための方法を提案する.1枚の画像を入力すると,画像を入力画像と同じスタイルに変換できる可能性が高い順に,公開されている画像生成LoRAモデルをランキングする検索アルゴリズムを作成した.そのために,トリプレットネットワーク(Tripletロスを用いたシャムネットワーク)を使用して,対照学習で画像間の「スタイル距離」を計算可能にした.そのために,インターネット上のフリー画像サイトからサンプル画像を収集し,検索対象のすべてのLoRAモデルでそれらをスタイル変換することで,学習用のデータセットを構築した.そして,被写体ではなくスタイルの距離を計算できるよう,ネットワークをファインチューニングした.このネットワークは,同じ被写体の2枚の画像を別のLoRAモデルで変換した際に距離が遠く,違う被写体の2枚の画像を同じLoRAモデルで変換した際には距離が遠くなるよう,画像をベクトル化する.変換されたサンプル群と,入力画像のスタイルの距離を計算し,最もスタイルの近い変換を行った順にモデルをランキングすることで,望んだ変換を行えるLoRAモデルを検索できる.2枚の画像が同じモデルで変換されたかを推定するタスクによる自動精度評価と,実際にモデルをランキングするタスクの被験者実験で,検索アルゴリズムを評価した.実験結果から,提案手法は少なくとも類似した変換を行えるモデルを検索できることが分かり,ファインチューニングの有効性,学習画像の多様さの重要性が示された.一方で,人間とアルゴリズムの考える「スタイル」の違いや,計算量などの課題も見出された.