The 40th Annual Conference of the Japanese Society for Artificial Intelligence, 2026

Presentation Information

[3Yin-A-36]Hazard Estimation with Multimodal Large Language Models Using Synthetic Videos: Toward Smart Monitoring for Preschool Children

〇Tetsuya Yamamoto¹, Fumihiko Ishida¹ (1. National Institute of Technology, Toyama College)

Keywords:

Large Language Model,Synthetic Data,Risk Estimation

本研究の目的は、合成動画とマルチモーダルLLMを組み合わせた、未就学児見守りスマートモニターへの応用を想定した危険推定手法の提案である。幼児期から未就学児期にかけて行動範囲の拡大に伴い危険要因の種類や組み合わせが増加し、人・物・動作・位置関係を含む状況理解に基づく判断が求められる。また、こうした危険状況を含む実環境動画の収集は著作権および倫理的制約により困難であり、学習・検証用データの確保が課題となっている。本研究では、事故事例に基づき動画生成モデルを用いて合成動画を生成し、保育士による危険度ラベリングを実施することで、611件の動画と危険度ラベルからなるデータセットを構築した。さらに、合成動画と年齢情報を入力とするマルチモーダルLLMによる危険推定手法を実装し、複数モデルによる比較検証を行った。その結果、合成動画を用いた場合においても危険度推定が有効に機能することを確認した。本手法は、実環境データの収集が困難な状況下における危険推定の実現可能性を示すものであり、未就学児見守りスマートモニターへの応用に向けた基盤技術として有効であることを示した。

Back to Session information