講演情報

[1Yin-B-40]視覚言語埋め込みに適した幾何構造と包含制約の検討

〇藤江蓮¹、吉川大貴¹、松原崇^1,2 (1. 北海道大学、2. 株式会社サイバーエージェント AI Lab)

キーワード：

視覚言語表現学習、類似度尺度、階層性

CLIPなどの大規模視覚言語モデルは，様々な概念を埋め込みベクトルに変換することで，分類や検索で高い性能を示す．しかし，概念の間の階層性や包含関係を明示的に表現する仕組みは備えていない．そのため，空間の曲率や類似度尺度，包含制約の導入など多様な手法が提案されているが，体系的な比較は十分でない．本研究では，様々な要素を同一条件下で組み合わせ，分類・検索・階層分類の性能で比較した．本実験の条件では，ユークリッド空間でバイアス付き内積を類似度尺度とし，包含制約を付与しない設定が，総合的に安定して高い性能を示すことを確認した．

セッション詳細へ戻る