Presentation Information

[4Yin-B-45]Estimating the Knowledge Cutoff Using Log-Likelihood

〇Karin Yamashita1, Waka Ito1, Yuha Nishigata1, Yuka Miyata1, Kimio Kuramitsu1 (1. Japan Women's University)

Keywords:

LLM,Data Contamination,Knowledge Cutoff,Log-Likelihood

大規模言語モデル(LLM)は,文章生成やコード生成など多様なタスクで高い性能を示している.これらのモデルは大量のテキストデータを用いて事前学習されるが,学習に用いられたデータの時間的上限である知識カットオフ日は必ずしも明示されていない.そのため,性能評価やベンチマーク利用の際に,評価データが事前学習データに含まれているか否かを外部から判断することが困難であり,データ汚染による評価の信頼性低下が懸念されている.この課題に対して本研究では,年月日や曜日のみからなる日付データを入力した際のperplexityの推移に着目し,カットオフ日を推定する手法を提案する.カットオフ日が公表されているLLMを対象に実験を行い,perplexityの変化点を検出した結果,推定された変化点が公表カットオフ日に近い時期と一致する傾向を確認した.本手法は,特定分野の知識に依存せず,性能評価やデータ汚染検出を補助する汎用的な指標として有用であると考えられる.