講演情報

[5G3-OS-37b-01]視覚言語モデルに基づく対話型動画質問応答における自己反省と常識知識グラフを用いた回答の説明可能性向上

〇檜原 康汰1、森田 武史1 (1. 青山学院大学)

キーワード:

視覚言語モデル、大規模言語モデル、常識知識グラフ

視覚言語モデル(VLM)を用いた対話型動画質問応答は,動画内の時間的変化と対話履歴に基づく質問意図の理解を要する高度な推論タスクである.一方で,誤答が生じやすく,生成回答の推論根拠が不明確であることや,誤答要因の体系的な分析が困難であるという課題がある.本研究では,対話型動画質問応答ベンチマーク VDAct を対象に,誤答要因の自動分類と,自己反省および常識知識グラフを用いた回答の精度・説明可能性向上を目的とする.まず,自動評価手法 VDEval が出力する判断根拠文に対し,二種類の自動分類手法を設計・実装し,人手分類との一致率に基づいて分析手法を選定する.次に,視覚認識に起因するハルシネーションの抑制を目的として,自己反省に基づく回答検証・修正手法を提案する.また,視覚情報や文脈推論不足を補完することを目的として,質問文に基づいて外部知識を付与する常識知識グラフを用いた質問応答を提案する.最後に,VDEval におけるスコアの変動および解消された誤答の分析を通じて,手法の有効性と限界,ならびに説明可能性について考察する.

コメント

コメントの閲覧・投稿にはログインが必要です。ログイン