The 40th Annual Conference of the Japanese Society for Artificial Intelligence, 2026

Presentation Information

[4Yin-A-47]Tacit Knowledge Candidate Span Extraction from Procedural Videos via Question-Based Verification

Tsukasa Kamo¹, 〇Keigo Yoshida¹, Atsushi Kuboya¹, Yuji Ayusawa¹, Tatsuya Yamamoto¹, Yusuke Yamashina², Caio Cesar Pinheiro de Moura², Keisuke Niimi², Kazuma Shiomi² (1. SCSK Corporation, 2. Insight Edge, Inc.)

Keywords:

Vision-Language Model,Tacit Knowledge,Procedural Video Understanding,Visual Question Answering

本研究は，手順作業動画から暗黙知が関与しやすい判断点を抽出し，暗黙知候補区間として提示することを目的とする．手順作業では，わずかな状態差に応じた微調整や例外処理が品質を左右するが，判断根拠は映像から直接観測できない場合が多い．提案手法は，候補抽出と視覚言語モデル（VLM）による検証を分離した二段構成をとる．手領域の外観差分と動き差分に基づく活動度をスコアリングして重要度の高い区間を候補として抽出する．各候補には根拠となる映像箇所を付与し，VLM を用いて固定質問に回答し，質問応答結果に基づいて候補の採択可否を判定する．これにより，暗黙知が潜在しやすい区間を根拠と質問付きで絞り込み，教育・標準化・品質監査における確認作業を支援する．評価では，提示可能な候補が得られる割合を中心とした運用指標により枠組みの妥当性を評価する．

Back to Session information