講演情報
[1Yin-B-33]拡散言語モデルのレイヤスキップに関する研究
〇辛島 悠斗1、大塚 光莉1、金子 竜也1、本村 真人1、藤木 大地1 (1. 東京科学大学)
キーワード:
生成モデル、拡散言語モデル、人工知能
拡散言語モデルは,トークンの並列生成能力により従来の自己回帰モデルを凌駕する可能性を秘めている.しかし,自己回帰モデルと異なり,拡散言語モデルは全レイヤで全トークンに対して演算を要するため,推論時に膨大な計算コストがかかる課題を持つ.そこで本研究では,拡散言語モデル用に拡張した新たなレイヤスキップ機構を導入することで,この計算コストの削減を試みる.代表的な拡散言語モデルである LLaDA 8B を用いた評価の結果,レイヤ削減率と精度の間に明確なトレードオフが確認された.
