2025年度 人工知能学会全国大会(第39回)

2025年度 人工知能学会全国大会(第39回)

2025年5月27日〜5月30日大阪国際会議場+オンライン
人工知能学会
2025年度 人工知能学会全国大会(第39回)

2025年度 人工知能学会全国大会(第39回)

2025年5月27日〜5月30日大阪国際会議場+オンライン

[3A4-TS-3-01]大規模視覚言語モデルの開発

鈴木 哲平1、田中 稔之1、髙田 拓実1、品川 政太朗1(1. SB Intuitions株式会社)
現在,大規模言語モデル(LLM)をはじめとした生成AI技術は以前に増して生活に身近な技術となっている.LLMの発展の中において,その高い認識・理解能力からLLMを様々なモダリティの認識・理解に活用する研究が数多く取り組まれている.特に,視覚情報処理という観点で,大規模視覚言語モデル(VLM)はその多岐にわたる応用から重要な技術となっており,現在までに様々なモデルが開発されている.
本講演では,まずはじめにLLMを基礎としたVLMのトレンドを俯瞰する.その後,VLMの学習データの構築から,学習,評価まで一連の開発のフローを,近年の研究事例やSB Intuitionsが公開しているVLMであるSarashina2-Visionの開発経験から得られた知見や課題を踏まえて紹介する.