講演情報

[4G-01]Beam Retrievalに基づくSlideVQAにおけるマルチホップ質問応答

*山野 瑞月1、宮森 恒1 (1. 京都産業大学情報理工学部宮森研究室)
発表者区分:学生
論文種別:ロングペーパー
インタラクティブ発表:あり

キーワード:

マルチホップ質問応答、SlideVQA、Beam Retrieval、回答根拠選択、推論

本研究では,プレゼンテーションスライドに対する視覚的なマルチホップ質問応答(SlideVQA)タスクに取り組む.SlideVQAは,複数の文書画像間の関係理解や数値推論など,複雑な推論能力を必要とするタスクである.従来手法では,マルチホップ質問応答の性能は単純なシングルホップ質問応答と比較して大幅に低く,F1スコアにおいて10ポイント以上低い性能が示されてた事例もあり,十分な性能を示せていない.また,正確な回答根拠を選択することがタスク全体の性能向上に寄与することが示されているが,この点での改善余地も残されている.本研究では,テキスト文書に対するマルチホップ質問応答のための検索手法であるBeam Retrievalをマルチモーダル情報に対応するよう拡張し,回答根拠選択の性能向上を目指す.SlideVQAデータセットを用いた実験により,提案手法が回答根拠選択の性能を向上させるだけでなく,質問応答タスク全体の性能向上に寄与するか明らかにする.