講演情報
[2E5-GS-10o-02]時系列データ解釈のためのマルチモーダルLLM設計と自動車の運転挙動説明への応用
〇松坂 修吾1、関 孝一1、樗澤 英明1、新立 拓也2、尤 書恒2、曹 永鵬2、薛 曦2、吉田 聖2、鈴木 都生2 (1. トヨタ自動車株式会社、2. NABLAS株式会社)
キーワード:
大規模言語モデル、マルチモーダルAI、時系列データ、キャプション生成、LLM as a Judge
近年、大規模言語モデル(Large Language Models: LLMs)のマルチモーダル化が急速に進展し、画像や動画、音声など多様なデータに対応したモデルが開発されている。一方、自動車産業では、車速や加速度、ステアリング操舵角などの時系列データを収集し、走行解析や異常検知に活用することが多い。従来、時系列データを入力とする機械学習モデルの開発では、用途ごとに特化したモデルを構築する必要があり、精度にも限界があった。この課題を解決するため、本研究では、時系列データを入力できる新たなマルチモーダルLLM(Time-Series Language Model: TSLM)を提案する。TSLMは、時系列エンコーダと特徴射影層を組み合わせ、抽出した時系列データの特徴をLLMに直接入力する構成である。さらに、運転挙動の説明に適用するため、実車走行データから時系列データとテキストのデータセットを構築し、モデルを学習した。説明品質をLLM as a Judgeで評価した結果、TSLMは同条件の視覚言語モデル(Vision Language Models: VLMs)を上回る性能を示した。
コメント
コメントの閲覧・投稿にはログインが必要です。ログイン
