Presentation Information

[5Yin-A-11]Performance Analysis of Code LLMs between Japanese and English Prompts Using JEvalPlus

〇Mai Takahashi1, Hiroshi Kazato1, Kyosuke Nishida1 (1. NTT, Inc.)

Keywords:

Code Generation,LLM,Japanese–English comparison,Error analysis

コードLLMの性能向上に伴い,日常的なコーディングタスクでもLLMの活用が進んでいる.近年のモデルはコード生成ベンチマークであるHumanEvalやMBPPで80〜90%を超える高い性能を示すが,実開発ではわずかな誤りでもレビューや修正の追加コストにつながるため,LLMの誤り傾向の把握が重要である.本研究ではHumanEvalとMBPPの改善版であるEvalPlusを日本語化し,日本語と英語の指示による複数のLLMの生成コードを比較することで誤りの内容を分析した.その結果,高性能モデルでも指示言語によって異なる誤りを示す場合があり,境界条件の誤解釈や要件の考慮漏れがあることを確認した.