講演情報
[4B-03]LLaVAを用いた地図画像とテキスト情報の統合的理解
*中西 勇輝1、橋口 友哉1、桑田 若菜1、三林 亮太1、大島 裕明1 (1. 兵庫県立大学)
発表者区分:学生
論文種別:ロングペーパー
インタラクティブ発表:あり
論文種別:ロングペーパー
インタラクティブ発表:あり
キーワード:
LLaVA、地理データ
本研究は、LLaVAを用いた地図画像とテキスト情報の統合的理解の提案です。本研究は、現行の対話モデルが地理情報を正確に扱えない課題を解決することを目的としています。
近年の対話型大規模言語モデル(LLM)であるChatGPTをはじめとするモデルは、多様なタスクを高い精度で遂行可能である一方、地理情報に基づくルート生成や地図上の関係性の理解において、非効率的または非現実的な結果を生成する場合があります。
本研究では、この課題を解決するため、視覚と言語情報を統合的に処理可能なモデルであるLLaVA(Large Language and Vision Assistant)を活用します。LLaVAは、画像を入力とした対話を可能にする視覚言語モデルであり、地図画像とテキスト情報を組み合わせた複雑なタスクに対応できると考えています。本研究では、地図画像と地図に関する質問応答のペアデータを作成し、LLaVAを用いて学習を行うことで、地理情報の正確な理解と適切な回答生成を目指しています。
近年の対話型大規模言語モデル(LLM)であるChatGPTをはじめとするモデルは、多様なタスクを高い精度で遂行可能である一方、地理情報に基づくルート生成や地図上の関係性の理解において、非効率的または非現実的な結果を生成する場合があります。
本研究では、この課題を解決するため、視覚と言語情報を統合的に処理可能なモデルであるLLaVA(Large Language and Vision Assistant)を活用します。LLaVAは、画像を入力とした対話を可能にする視覚言語モデルであり、地図画像とテキスト情報を組み合わせた複雑なタスクに対応できると考えています。本研究では、地図画像と地図に関する質問応答のペアデータを作成し、LLaVAを用いて学習を行うことで、地理情報の正確な理解と適切な回答生成を目指しています。