講演情報

[3Yin-A-10]LLM-jp Chatbot Arena:日本語 LLM 対話評価プラットフォームの構築

〇清丸 寛一1、杉山 弘晃2、常世 大史3、久保 隆宏3、岡崎 直観4,1 (1. 国立情報学研究所、2. NTT株式会社、3. アマゾンウェブサービスジャパン合同会社、4. 東京科学大学)

キーワード:

大規模言語モデル、評価、日本語

日本語 LLM の対話性能を評価するプラットフォーム LLM-jp Chatbot Arena を提案する.
LLM-jp Chatbot Arena では,ユーザのクエリに対して二つの日本語 LLM がそれぞれ応答を生成し,ユーザがより優れていると判断する応答に投票することで,LLM の相対的な性能を評価する.
合計10モデルを評価対象として約7ヶ月にわたり同プラットフォームを運用し,5,330件の文脈-モデル応答ペアと1,498件の投票データを収集した.
投票データに基づく性能評価の結果,gpt-oss や Qwen3,Gemma3 といった多言語モデルが LLM-jp-3.1 等の日本語 LLM よりも優れた日本語対話性能を示した.
また,得られた評価結果は LLM による自動性能評価と高い相関を示した.