講演情報

[4Yin-A-KA03]研究会優秀賞：「記述回答自動採点は人間採点を超えたのか：テスト理論に基づく到達可能精度の上限推定」先進的学習科学と工学研究会（SIG-ALST）

〇宇都雅輝¹ (1. 電気通信大学)

人工知能の教育応用に関わる主要な研究課題の一つである記述式回答自動採点では，採点精度の向上が中心的な目標とされており，その精度評価は，公開ベンチマークデータセットを用いて，QWK（Quadratic Weighted Kappa）を主たる評価指標として行われてきた．しかし，データセット中の得点ラベルには，人間採点者に由来するノイズが混入する可能性があり，そのような場合，真の得点を完全に予測できる理想的な自動採点モデルであっても，その予測得点とデータセット中の得点ラベルとのQWKは最大値である1には到達しない．そこで本研究では，古典的テスト理論に基づいて算出される得点ラベルの信頼性を用いて，各データセットにおいて達成可能なQWKの理論的上限を導出する．さらに，人間採点者と同程度の採点誤差を有する自動採点モデルが到達可能なQWK値を，実践的な目標値として導出する．加えて，従来研究でしばしば目標値として用いられてきた「人間採点者間のQWK」が，真の精度上限を過小評価する保守的な目標値であることを示す．本研究は，データセットごとの自動採点精度を，相対比較に依存せずに絶対的に解釈するための理論的枠組みを与え，経験的な目標に対する誤解を是正するものである．

セッション詳細へ戻る