The 40th Annual Conference of the Japanese Society for Artificial Intelligence, 2026

Presentation Information

[1Yin-B-45]Deep Learning–Based 3D Position Estimation of Microphone-Equipped Speakers Using Simultaneous Playback and Recording

〇Chiro Nishihara¹, Gen Sato¹, Koki Horikoshi², Izumi Tsunokuni¹, Yusuke Ikeda¹ (1. Tokyo Denki university, 2. Ono Sokki Co., Ltd.)

Keywords:

Acoustic Engineering,Sound Source Localization,MLP,CNN,CRNN

音場再現技術は、複数のスピーカを用いて音の波面を物理的に制御し、高い臨場感を実現する。近年、マイクロホンとスピーカを一体化したスマートスピーカが普及しており、これらを音場再現技術へ活用する研究も進められている。音場再現技術において高い臨場感を得るためには、各スピーカの正確な位置情報が不可欠である。しかし実環境では、事前に位置情報を把握することは容易ではない。これまでに、聴取者の発話の指向性を利用してスマートスピーカの位置を推定する手法が提案されているものの、角度の推定精度に課題があり、個人差の影響も懸念されている。そこで本研究では、複数のスマートスピーカから同時に既知信号を再生し、各スピーカで測定された信号を入力として深層学習により各スマートスピーカの三次元位置を推定する手法を提案する。シミュレーション実験では複数のネットワークアーキテクチャを用いて推定精度を比較した。その結果、多層パーセプトロン等の基本的なモデルと比べて高い推定精度を示すアーキテクチャを明らかにした。

Back to Session information