講演情報
[2Yin-B-13]言語モデルの長文処理能力の統計物理学的特徴づけ
〇中石 海1、岡 佑依2、山本 悠士1、西田 京介2、横井 祥1 (1. 国立国語研究所、2. NTT株式会社 人間情報研究所)
キーワード:
大規模言語モデル、長文処理、長さ外挿、統計物理学
大規模言語モデルの長文処理能力,特に訓練時の最大系列長よりも長いテキストを処理する能力について,統計物理学的観点から特徴づけを与える.具体的には,文脈が長大であっても任意個前のトークンを適切に参照する能力は,生成テキスト上での2点間の相関が距離について冪的に減衰することによって特徴づけられ,また,同じ表現の反復を抑制する能力は,生成テキストを異なる周期の波に分解したときに支配的な周期が存在しないことによって特徴づけられることを提案する.さらに,生成テキストの統計解析に基づき,これらを実験的に検証する.
