講演情報

[4B-02]マルチモーダル大規模言語モデルに基づく論理的および構造的異常の説明可能な検知

*藤井 野枝子1、酒井 哲也1 (1. 早稲田大学基幹理工研究科情報理工・情報通信専攻酒井研究室)
発表者区分:学生
論文種別:ロングペーパー
インタラクティブ発表:あり

キーワード:

異常検知、VLM、論理的異常、構造的異常、LLM、画像認識、プロンプトチューニング、産業

大規模言語モデルは自然言語処理や視覚と自然言語の統合分野において急速に進化しており,特にGPT-4oは画像とテキストを組み合わせたVisual Question Answering(VQA)が可能である.しかし,オブジェクトの数や位置,サイズを正確に検出する能力には限界があり,産業異常検知への適用には課題がある.本研究では,GPT-4oとMM-Grounding-DINO,SAM2を組み合わせた新しいパイプラインを提案する.MVTec LOCO ADデータセットを使用した実験結果では,我々のシステムは構造的異常検知タスクではState-Of-The-Artには及ばないものの,論理的異常検知タスクでは既存のモデルよりも優れていることを示した.さらに,我々の知る限りでは,我々のシステムは構造的異常と論理的異常の両方を処理できる説明可能な異常検知を実現した最初のシステムである.