Presentation Information

[3E1-GS-2d-05]Codeword-based Expert Representation with Hamming-Distance-Aware DSelect-k Mixture-of-Experts

〇Kotaro Kanda1, Haruki Nagami1, Ayako Yamagiwa1, Masayuki Goto1 (1. Waseda University)

Keywords:

Mixture of Experts,Expert Selection,Hamming distance

マルチタスク学習における専門家混合(Mixture of Experts)モデルは,複数の専門家ネットワークを並列に用意し,入力やタスクに応じてゲート機構が定めた専門家の重みに基づき加重和として出力を統合することにより,高い表現能力を実現するモデルである.このモデルでは,タスク間で専門家の知識を部分的に共有することで,知識共有とタスク固有性の両立が可能となる.一方で,学習の進展に伴い,特定の専門家のみが選択される「専門家崩壊」が生じやすいことが指摘されている.特に DSelect-k のような離散的選択を行う手法では,一部の専門家への過度な集中により,モデル容量を十分に活用できないという課題がある.本研究では,この問題の原因が,専門家が独立かつ無関係な存在として扱われている点にあると考え,専門家間に構造的な関係性を導入する新たなゲート機構を提案する.具体的には,各専門家に割り当てる符号語について,ハミング距離によって専門家間の類似性を明示的に定義することを考える.実データを用いた実験により,提案手法が専門家利用の偏りを抑えつつ,類似した特性を持つ専門家群を適応的に選択できることを示す.