The 40th Annual Conference of the Japanese Society for Artificial Intelligence, 2026

Presentation Information

[4Yin-B-58]Evaluation of Large Language Models Using a Multilingual Benchmark

〇ZHANG HANTAO¹, Kondo Tadahisa¹ (1. Kogakuin University)

Keywords:

benchmark,hallucination,llm,multilingual,wikidata

大規模言語モデル（LLM）は多様なタスクで高い性能を示す一方で，事実に反する回答（ハルシネーション）を生成することがある．既存のハルシネーション評価ベンチマークは英語中心であり，日本語・中国語を含む多言語での定量的評価は十分に行われていない．本研究では，WIKIDATAの英語の知識トリプレットを日本語および中国語に対応付け，三言語で同一知識を表す質問セット（28,173 問）からなるハルシネーション評価ベンチマークを構築した．構築した質問セットに対して，GPT-4o，GPT-5.2-instant，DeepSeek-V3.2，LLaMA-3.1-8B-Instructに回答させた結果，ハルシネーション率は英語で約60〜70%，日本語で70%以上，中国語では80%を超えた．また，英語のみ誤答する質問は各モデルで数百問以下であったのに対し，日本語のみ誤答は数百問程度，中国語のみ誤答は数千問規模で観測された．これらの言語間の違いは，LLMの知識表現を反映したものであり，それぞれの言語に特有の誤答の特徴を分析することで，多言語対応LLMにおける知識表現の理解に寄与すると考えられる．

Comment

To browse or post comments, you must log in.Log in

Back to Session information