The 40th Annual Conference of the Japanese Society for Artificial Intelligence, 2026

Presentation Information

[5Yin-A-11]Performance Analysis of Code LLMs between Japanese and English Prompts Using JEvalPlus

〇Mai Takahashi¹, Hiroshi Kazato¹, Kyosuke Nishida¹ (1. NTT, Inc.)

Keywords:

Code Generation,LLM,Japanese–English comparison,Error analysis

コードLLMの性能向上に伴い，日常的なコーディングタスクでもLLMの活用が進んでいる．近年のモデルはコード生成ベンチマークであるHumanEvalやMBPPで80〜90％を超える高い性能を示すが，実開発ではわずかな誤りでもレビューや修正の追加コストにつながるため，LLMの誤り傾向の把握が重要である．本研究ではHumanEvalとMBPPの改善版であるEvalPlusを日本語化し，日本語と英語の指示による複数のLLMの生成コードを比較することで誤りの内容を分析した．その結果，高性能モデルでも指示言語によって異なる誤りを示す場合があり，境界条件の誤解釈や要件の考慮漏れがあることを確認した．

Back to Session information