講演情報

[6B-04]モダリティ欠損を伴う音楽データのための多モーダル対照学習

*中田 航人1、江口 浩二1 (1. 広島大学)
発表者区分:学生
論文種別:ロングペーパー
インタラクティブ発表:あり

キーワード:

機械学習、音楽情報処理、マルチモーダル学習、対照学習

本研究では, 音楽情報処理分野における多モーダル対照学習として, MIDI, テキスト, 音声の3つのモダリティを統合したモデルを提案する. 従来の研究は主にテキストと音声の2つのモダリティに限定されており, 3つ以上のモダリティを統合する研究は, 筆者の知る限りでは見当たらない. そこで, 本分野でよく利用されるMIDIデータを追加することで, 音楽分野における実用性を高めることを目指している. 事前学習には, MIDIとテキストキャプションの対応付けデータセットを使用し, 事前に学習されたCLAPの音声エンコーダとテキストエンコーダを活用した. MIDIと音声の直接的な対照学習は行わず, テキストの埋め込み空間にMIDIを統合することで, テキストを橋渡しとしてMIDIと音声の埋め込み空間も間接的に整合させた. また, 損失関数にはContent-Aware Loss Weightingを導入し, 重み付けを通じて学習の効果を高めている. 実験結果から, 提案モデルはクロスモーダル検索およびゼロショット分類のタスクにおいて従来手法を上回る性能を示した.