講演情報

[2B-01]大規模言語モデルに対する特定の問合せの性能計測手法

*神田 智也1、伊藤 寛祥2、森嶋 厚行2 (1. 筑波大学融合知能デザイン研究室、2. 筑波大学図書館情報メディア系)
発表者区分:学生
論文種別:ロングペーパー
インタラクティブ発表:あり

キーワード:

評価・データセット、LLM

大規模言語モデル(LLM)に用いられる既存のベンチマークは複数の問合せにおける性能を示すもので、個別の問合せ結果の品質を予測するための性能指標としては不十分である。本論文では、全体性能ではなく、与えられた個別の問合せに関するLLMの性能指標が実現可能か検証を行った結果を報告する。具体的には、クラウドソーシングタスクの結果集約におけるワーカの性能推測手法を応用し、複数のLLMにまずは一定量の問合せに回答するというタスクを実行させて各LLMの性能を推定する。次に、この推定性能と個別の問合せの結果から計算できるMQスコアを考案し、これが各LLMの個別の問合せの品質推定に有効であるかの検証を行った。本手法は、能力推定のためだけに大量のクラウドソーシングタスクを行うことは人間のワーカでは非実用的ではあるが、LLMを対象とした場合には可能であるというアイデアに基づくものである。様々なドメインで回答文を生成する問合せを利用した実験で、全体性能を見るベンチマークで高いスコアを出した単一のモデルの結果を採用するより、各問題ごとにMQスコアが最大であるモデルの結果を採用する方が優れた性能を示した。