セッション詳細

[4B]マルチモダリティ

2025年2月28日(金) 10:00 〜 12:10
B会場
座長:髙橋 翼(Turing株式会社) コメンテータ:浪岡 保男(東京都立産業技術大学院大学)

[4B-01]生成AIとテキストの絵画性分析に基づく画像自動生成

*杉田 祥太郎2、野村 修2、崔 童殷3、田中 克己1 (1. 関西学院大学、2. 福知山公立大学、3. 京都工芸繊維大学)
発表者区分:学生
論文種別:ロングペーパー
インタラクティブ発表:あり

[4B-02]マルチモーダル大規模言語モデルに基づく論理的および構造的異常の説明可能な検知

*藤井 野枝子1、酒井 哲也1 (1. 早稲田大学基幹理工研究科情報理工・情報通信専攻酒井研究室)
発表者区分:学生
論文種別:ロングペーパー
インタラクティブ発表:あり

[4B-03]LLaVAを用いた地図画像とテキスト情報の統合的理解

*中西 勇輝1、橋口 友哉1、桑田 若菜1、三林 亮太1、大島 裕明1 (1. 兵庫県立大学)
発表者区分:学生
論文種別:ロングペーパー
インタラクティブ発表:あり

[4B-04]Q-Frame: A Plug-and-play Question-related Frame Extraction Approach for Long Video Question Answering

*Li Zhi1、Wan Yanan1、Niu Hao1、Vizcarra Julio1、多屋 優人1 (1. KDDI総合研究所)
発表者区分:一般
論文種別:ショートペーパー
インタラクティブ発表:あり

[4B-05]Large Vision-Language Modelに対するノイズ補正による事前訓練画像検知

*宮本 遼人1、Fan Xin2、木戸 冬子3、松本 恒雄4、山名 早人5 (1. 早稲田大学 基幹理工学部 情報理工学科、2. 早稲田大学 基幹理工学研究科、3. 情報・システム研究機構、4. 国民生活センター、5. 早稲田大学 理工学術院)
発表者区分:学生
論文種別:ロングペーパー
インタラクティブ発表:あり