講演情報

[3Yin-A-10]LLM-jp Chatbot Arena：日本語 LLM 対話評価プラットフォームの構築

〇清丸寛一¹、杉山弘晃²、常世大史³、久保隆宏³、岡崎直観^4,1 (1. 国立情報学研究所、2. NTT株式会社、3. アマゾンウェブサービスジャパン合同会社、4. 東京科学大学)

キーワード：

大規模言語モデル、評価、日本語

日本語 LLM の対話性能を評価するプラットフォーム LLM-jp Chatbot Arena を提案する．
LLM-jp Chatbot Arena では，ユーザのクエリに対して二つの日本語 LLM がそれぞれ応答を生成し，ユーザがより優れていると判断する応答に投票することで，LLM の相対的な性能を評価する．
合計10モデルを評価対象として約7ヶ月にわたり同プラットフォームを運用し，5,330件の文脈-モデル応答ペアと1,498件の投票データを収集した．
投票データに基づく性能評価の結果，gpt-oss や Qwen3，Gemma3 といった多言語モデルが LLM-jp-3.1 等の日本語 LLM よりも優れた日本語対話性能を示した．
また，得られた評価結果は LLM による自動性能評価と高い相関を示した．

セッション詳細へ戻る