講演情報

[3Yin-A-31]人間向けクイズを模した高難易度日本語QAベンチマークの構築

〇佐々木 斗海1、河原 大輔1,2 (1. 早稲田大学、2. 国立情報学研究所 大規模言語モデル研究開発センター)

キーワード:

大規模言語モデル、質問応答、クイズ、ベンチマーク

大規模言語モデル(LLM)の信頼性を担保するためには事実性能力の評価が不可欠であり、事実を問う質問応答ベンチマークが数多く提案されてきた。近年のベンチマークは、急速に発展するLLMの能力を適切に評価するため、高難易度のものが多い。しかし、それらは実際の利用場面とかけ離れた過度に難しい質問を含むことがあり、実用的な性能指標としての妥当性に課題が残る。本研究では人間向けクイズを模した高難易度日本語QAベンチマーク「BuzzerQA」を構築する。クイズ問題の作成にはLLMを用い、知名度が高い情報を基にすることで、人間にとって適度な難易度を実現する。加えて、複数のLLMが解答できない問題を選別し、最新のLLMでも解答が容易でない問題群を構成する。構築したBuzzerQAを用いて既存の大規模言語モデルの事実性能力を評価する。さらに、問題の質について、人間とLLMによる評価を比較し、LLMによる評価の課題を明らかにする。評価の結果、本ベンチマークは設計意図どおり高い難易度を有し、一定の品質を備えていることを確認した。