講演情報

[4Yin-A-43]ニューラル長期記憶モジュールを有する言語モデルの日本語事前学習とファインチューニングにおける効果検証

〇下田祐樹¹、狩野芳伸¹ (1. 静岡大学)

キーワード：

事前学習、ファインチューニング、マルチターン

Transformer は非常に長いコンテキストを処理する際に課題に直面している．本稿では，これらの制限に対処する可能性がある Titans というアーキテクチャを検討し，日本語のデータセットにおける事前学習と SFT を通じてその適用可能性を評価し，日本語の設定における挙動と傾向を分析する．事前学習中，セグメントの長さ（アテンションウィンドウ）が増加するにつれて PPL が減少した．Japanese MT-Bench による評価では，長いセグメント長が一般的にマルチターン対話でより安定した出力を生み出すことが確認された．また，Titans は一部のカテゴリと質問で同等パラメータ数のベースラインを上回り，ターンレベルの分析では，第一ターンよりも第二ターンのスコアが相対的に高い傾向が強いことが示された．

コメントの閲覧・投稿にはログインが必要です。ログイン

セッション詳細へ戻る