Presentation Information

[4Yin-A-48]Verbalization of Tacit Knowledge through Dynamic Nuance Analysis in Videos Using Multimodal Large Language Models

〇Tatsuya Yamamoto1, Atsushi Kuboya1, Yuji Ayusawa1, Tsukasa Kamo1, Keigo Yoshida1, Yusuke Yamashina2, Keisuke Niimi2, Caio Cesar Pinheiro de Moura2, Kazuma Shiomi2 (1. SCSK Corporation, 2. Insight Edge , Inc)

Keywords:

Tacit Knowledge,Multimodal LLM,Video Analysis,Verbalization

本研究では、マルチモーダルLLMを用いて、動画内の動きの特異点や動作の複雑さ等の動的ニュアンスを可視化のうえ解析し、暗黙知を言語化する手法を提案する。近年の動画解析手法は、行動の内容や発生時刻といった事実の特定に主眼を置いている一方で、失敗の背景にある理由や実行過程に関わる技能的知識(暗黙知)の抽出は不十分である。提案手法では、オプティカルフローから生成した動作の変化量などを可視化したモーション検知画像を用いて暗黙知の抽出が有望なシーンを特定する。その後、特定したシーンについて「道具の使用状態」、「対象物の物理的変化」、「人の動作」といった観点で成功・失敗パターンを比較分析することにより暗黙知を言語化する。評価として、抽出された知見の有用性を示すため、人手による新規知見の発見率を検証した。また、マルチモーダルLLMに抽出された暗黙知情報を付与することで、成功・失敗分類精度が向上することを確認した。