講演情報

[5Yin-A-11]JEvalPlusによる日本語と英語のタスク指示を用いたコードLLMの性能分析

〇高橋舞衣¹、風戸広史¹、西田京介¹ (1. NTT株式会社)

キーワード：

コード生成、大規模言語モデル、日英比較、エラー分析

コードLLMの性能向上に伴い，日常的なコーディングタスクでもLLMの活用が進んでいる．近年のモデルはコード生成ベンチマークであるHumanEvalやMBPPで80〜90％を超える高い性能を示すが，実開発ではわずかな誤りでもレビューや修正の追加コストにつながるため，LLMの誤り傾向の把握が重要である．本研究ではHumanEvalとMBPPの改善版であるEvalPlusを日本語化し，日本語と英語の指示による複数のLLMの生成コードを比較することで誤りの内容を分析した．その結果，高性能モデルでも指示言語によって異なる誤りを示す場合があり，境界条件の誤解釈や要件の考慮漏れがあることを確認した．

セッション詳細へ戻る