講演情報
[4Yin-A-48]マルチモーダルLLMを用いた動画中の動的ニュアンス解析による暗黙知の言語化
〇山本 達也1、久保谷 篤1、鮎澤 雄治1、加茂 司1、吉田 圭吾1、山科 勇輔2、新見 佳祐2、ピンエイロ ジ モウラ カイオ2、塩見 和真2 (1. SCSK 株式会社、2. 株式会社 Insight Edge)
キーワード:
暗黙知、マルチモーダルLLM、動画解析、言語化
本研究では、マルチモーダルLLMを用いて、動画内の動きの特異点や動作の複雑さ等の動的ニュアンスを可視化のうえ解析し、暗黙知を言語化する手法を提案する。近年の動画解析手法は、行動の内容や発生時刻といった事実の特定に主眼を置いている一方で、失敗の背景にある理由や実行過程に関わる技能的知識(暗黙知)の抽出は不十分である。提案手法では、オプティカルフローから生成した動作の変化量などを可視化したモーション検知画像を用いて暗黙知の抽出が有望なシーンを特定する。その後、特定したシーンについて「道具の使用状態」、「対象物の物理的変化」、「人の動作」といった観点で成功・失敗パターンを比較分析することにより暗黙知を言語化する。評価として、抽出された知見の有用性を示すため、人手による新規知見の発見率を検証した。また、マルチモーダルLLMに抽出された暗黙知情報を付与することで、成功・失敗分類精度が向上することを確認した。
