講演情報

[5Yin-A-11]JEvalPlusによる日本語と英語のタスク指示を用いたコードLLMの性能分析

〇高橋 舞衣1、風戸 広史1、西田 京介1 (1. NTT株式会社)

キーワード:

コード生成、大規模言語モデル、日英比較、エラー分析

コードLLMの性能向上に伴い,日常的なコーディングタスクでもLLMの活用が進んでいる.近年のモデルはコード生成ベンチマークであるHumanEvalやMBPPで80〜90%を超える高い性能を示すが,実開発ではわずかな誤りでもレビューや修正の追加コストにつながるため,LLMの誤り傾向の把握が重要である.本研究ではHumanEvalとMBPPの改善版であるEvalPlusを日本語化し,日本語と英語の指示による複数のLLMの生成コードを比較することで誤りの内容を分析した.その結果,高性能モデルでも指示言語によって異なる誤りを示す場合があり,境界条件の誤解釈や要件の考慮漏れがあることを確認した.