The 40th Annual Conference of the Japanese Society for Artificial Intelligence, 2026

Presentation Information

4:30 PM - 4:45 PM JST(7:30 AM - 7:45 AM UTC)

[2F5-OS-19a-05]Improving Vision-Language-Model-Based Anomalous Frame Detection Using Text Prompts Toward Codifying Expert Know-How

Kaname Yokoyama¹, 〇Ryo Sakai¹ (1. Hitachi, Ltd. Research and Development Group)

Keywords:

Vision Language Model,Anomalous frame detection

インフラ設備の保守作業は重要な業務である一方で、少子高齢化などによる熟練保守員の減少が問題となっており、熟練者ノウハウの非熟練者への伝承が求められている。従来、熟練保守員へのインタビューによるノウハウ抽出などが行われているが、保守員自身も無自覚なノウハウは抽出が難しい。このような無自覚なノウハウの形式知化のために、マニュアル通りの作業動画と熟練保守員の作業動画に対してVision Language Model(VLM)を用いて画像説明文を生成し、その比較によりノウハウを含む行動の候補を抽出する手法が提案されている。しかしながら、従来手法では画像のみを入力として説明文を生成するため、その際に着目する特徴についてはVLM依存となり、抽出性能の低下要因となっていた。そこで本研究では、保守員の行動に着目するテキストプロンプトによりVLMが生成する画像説明文を調整することで、ノウハウを含む行動の候補の抽出性能を向上する手法を提案する。配電盤保守作業を模擬したマニュアル外の動作を対象とした実験では，提案手法は従来手法より優れた抽出率を記録した。

Comment

To browse or post comments, you must log in.Log in

Back to Session information