講演情報

[2Yin-A-50]FiT-QA : 栽培暦のVQAベンチマーク- データセット構築と汎用VLMの限界 -

〇高橋 洸丞1、會田 勇斗1、宮脇 一輝2、中川 菫2、木村 泰知2、門脇 一真3、小林 暁雄4、大友 将宏4、石原 潤一4、馬場 研太4 (1. ストックマーク株式会社、2. 小樽商科大学、3. 株式会社日本総合研究所、4. 農研機構 農業情報研究センター)

キーワード:

画像質問応答、農業、LLM

農業分野では、実務文書QAへのAI活用が十分に進んでいない。中核資料である栽培暦は、表・図・写真・注記と時系列作業が1枚に高密度で混在し、汎用手法の適用が難しい。本研究は、栽培暦画像を対象としたVQAベンチマークFiT-QA(Figures and Tables Question Answering)を提案する。FiT-QAは、自動生成後に人手編集・確認したeasy-QAと、複数領域の統合推論を要するよう人手で一から作成したdifficult-QAで構成され、347画像・1,152QAを収録する。高性能な汎用VLMで評価した結果、easy-QAにも誤答が残り、difficult-QAでは正答が限定的であった。これらは既存技術の直接適用の限界を示しており、FiT-QAを今後の開発・学習に向けた実用的ベンチマークとして公開する。