講演情報

18:15 〜 18:30

[2F6-OS-19b-04]事業利用を目的としたファッション領域における視覚言語モデルの評価ベンチマークの設計と初期検討

サイタウンカン¹、清水悠揮²、桜井詩音²、冨田勇人²、佐々木北都²、戸塚将²、久保利彩²、森本陽菜²、宮園太貴²、〇清水良太郎¹ (1. ZOZO研究所、2. 株式会社ZOZO)

キーワード：

視覚言語モデル、ベンチマーク、属性抽出

事業利用を目的に，ファッション領域の視覚言語モデル（Vision-Language Model; VLM）の実運用適性を業務観点で比較可能にする評価ベンチマークを設計する．既存のVLM評価は一般物体・一般シーン理解に偏り，色・柄・素材・スタイルといったファッション固有要素の理解や，EC運用に直結する非構造画像からの情報抽出タスクにおける性能は十分に検証されていない．そこで本研究では，入力を全身コーディネート画像とアイテム単体画像の2系統に分け，属性抽出・タグ付け等のタスク群を定義した上で，複数のVLMを同条件で評価する枠組みを提案する．初期検証では，タスクによってモデルの得手不得手が明確に分かれること，およびプロンプトを変更してもモデル固有のエラーパターンが一貫して現れることを確認した．これにより，ユースケース別のモデル選定に加え，プロンプトに対する頑健性の検証や，モデル更新をまたいだ継続的なモニタリングが，要求品質に沿った運用設計において重要であることを示唆する．

セッション詳細へ戻る