講演情報
[5Yin-A-11]JEvalPlusによる日本語と英語のタスク指示を用いたコードLLMの性能分析
〇高橋 舞衣1、風戸 広史1、西田 京介1 (1. NTT株式会社)
キーワード:
コード生成、大規模言語モデル、日英比較、エラー分析
コードLLMの性能向上に伴い,日常的なコーディングタスクでもLLMの活用が進んでいる.近年のモデルはコード生成ベンチマークであるHumanEvalやMBPPで80〜90%を超える高い性能を示すが,実開発ではわずかな誤りでもレビューや修正の追加コストにつながるため,LLMの誤り傾向の把握が重要である.本研究ではHumanEvalとMBPPの改善版であるEvalPlusを日本語化し,日本語と英語の指示による複数のLLMの生成コードを比較することで誤りの内容を分析した.その結果,高性能モデルでも指示言語によって異なる誤りを示す場合があり,境界条件の誤解釈や要件の考慮漏れがあることを確認した.
