講演情報

[4Yin-A-43]ニューラル長期記憶モジュールを有する言語モデルの日本語事前学習とファインチューニングにおける効果検証

〇下田 祐樹1、狩野 芳伸1 (1. 静岡大学)

キーワード:

事前学習、ファインチューニング、マルチターン

Transformer は非常に長いコンテキストを処理する際に課題に直面している.本稿では,これらの制限に対処する可能性がある Titans というアーキテクチャを検討し,日本語のデータセットにおける事前学習と SFT を通じてその適用可能性を評価し,日本語の設定における挙動と傾向を分析する.事前学習中,セグメントの長さ(アテンションウィンドウ)が増加するにつれて PPL が減少した.Japanese MT-Bench による評価では,長いセグメント長が一般的にマルチターン対話でより安定した出力を生み出すことが確認された.また,Titans は一部のカテゴリと質問で同等パラメータ数のベースラインを上回り,ターンレベルの分析では,第一ターンよりも第二ターンのスコアが相対的に高い傾向が強いことが示された.