講演情報

[5G-04]画像と音声のマルチモーダル学習による規模推定・混雑予測

*井手 伊織1、豊坂 祐樹2、成 凱2 (1. 九州産業大学 成研究室、2. 九州産業大学)
発表者区分:学生
論文種別:ロングペーパー
インタラクティブ発表:なし

キーワード:

混雑予測、規模推定、時系列予測、Transformerモデル、マルチモーダル学習、マルチモーダル融合、画像認識、密度推定モデル、音声特徴量、等価騒音レベル

イベント会場、駅やショッピングモールといった人が集まる場所で、空間内の人数や行動を把握し混雑検知を行うことは、安全管理、オーバーツーリズム対策、災害時の救援において重要である。しかし、従来手法では画像のみを用いて規模推定を行うことが一般的であり、カメラ画像の解像度や照度などの条件によっては、判別が難しくなる状況で推定精度が低下するという問題があった。本研究では、画像に加えて足音や話し声など、人間から発生する音声データを活用し、時間とともに変化する特徴量を融合することで、相関関係に基づいた時系列的な混雑予測を提案する。予測モデルとして、深層学習による人数推定モデル「CSRNet」に加え、マルチモーダル学習に適したTransformerモデルの交差注意機構を併用する。この手法では、画像特徴量に加えて音声特徴量を補助情報として統合し、規模推定の精度向上を図るとともに規模推定の精度向上と共に混雑予測も可能にする手法を開発し、実データに基づいた評価を行った。