Presentation Information

[4Yin-B-58]Evaluation of Large Language Models Using a Multilingual Benchmark

〇ZHANG HANTAO1, Kondo Tadahisa1 (1. Kogakuin University)

Keywords:

benchmark,hallucination,llm,multilingual,wikidata

大規模言語モデル(LLM)は多様なタスクで高い性能を示す一方で,事実に反する回答(ハルシネーション)を生成することがある.既存のハルシネーション評価ベンチマークは英語中心であり,日本語・中国語を含む多言語での定量的評価は十分に行われていない.本研究では,WIKIDATAの英語の知識トリプレットを日本語および中国語に対応付け,三言語で同一知識を表す質問セット(28,173 問)からなるハルシネーション評価ベンチマークを構築した.構築した質問セットに対して,GPT-4o,GPT-5.2-instant,DeepSeek-V3.2,LLaMA-3.1-8B-Instructに回答させた結果,ハルシネーション率は英語で約60〜70%,日本語で70%以上,中国語では80%を超えた.また,英語のみ誤答する質問は各モデルで数百問以下であったのに対し,日本語のみ誤答は数百問程度,中国語のみ誤答は数千問規模で観測された.これらの言語間の違いは,LLMの知識表現を反映したものであり,それぞれの言語に特有の誤答の特徴を分析することで,多言語対応LLMにおける知識表現の理解に寄与すると考えられる.