講演情報

[2F6-OS-19b-04]事業利用を目的としたファッション領域における視覚言語モデルの評価ベンチマークの設計と初期検討

サイ タウンカン1、清水 悠揮2、桜井 詩音2、冨田 勇人2、佐々木 北都2、戸塚 将2、久保利 彩2、森本 陽菜2、宮園 太貴2、〇清水 良太郎1 (1. ZOZO研究所、2. 株式会社ZOZO)

キーワード:

視覚言語モデル、ベンチマーク、属性抽出

事業利用を目的に,ファッション領域の視覚言語モデル(Vision-Language Model; VLM)の実運用適性を業務観点で比較可能にする評価ベンチマークを設計する.既存のVLM評価は一般物体・一般シーン理解に偏り,色・柄・素材・スタイルといったファッション固有要素の理解や,EC運用に直結する非構造画像からの情報抽出タスクにおける性能は十分に検証されていない.そこで本研究では,入力を全身コーディネート画像とアイテム単体画像の2系統に分け,属性抽出・タグ付け等のタスク群を定義した上で,複数のVLMを同条件で評価する枠組みを提案する.初期検証では,タスクによってモデルの得手不得手が明確に分かれること,およびプロンプトを変更してもモデル固有のエラーパターンが一貫して現れることを確認した.これにより,ユースケース別のモデル選定に加え,プロンプトに対する頑健性の検証や,モデル更新をまたいだ継続的なモニタリングが,要求品質に沿った運用設計において重要であることを示唆する.

コメント

コメントの閲覧・投稿にはログインが必要です。ログイン