講演情報

[1H3-OS-40-05]MAPLE:複数評価基準と複数LLMを用いた自由記述回答の自動評価手法

〇神事 倫紀1、新 恭兵1、竹内 孝1、鹿島 久嗣1 (1. 京都大学)

キーワード:

LLM-as-a-Judge、マルチエージェント

近年、評価者として大規模言語モデル (LLM) を用いる LLM-as-a-Judgeに関する研究が注目を集めている。この手法は、人手による評価に伴う時間的・金銭的負担を軽減できる一方で、LLM による評価と人間評価との間に乖離が生じることが課題である。本研究の目的は、LLM による自動評価を人間の評価により高く整合させることである。そのために本研究では、複数の評価基準と複数の LLM を用いて評価を行い、それらを統合するフレームワーク MAPLE (Multi-Aspect Panels of LLM Evaluators) を提案する。提案フレームワークでは、複数のLLMによる評価基準ごとの比較結果を統合する。その過程で、評価基準の重要度や、評価者の信頼度を推定する。エッセイ評価タスクを対象とした実験で複数のベースラインとの比較を行った結果、提案手法はこれらを上回り、人間評価との整合性が向上することを確認した。これにより、複数のLLMと複数の評価基準を用いることがLLM-as-a-Judge において有効であることを示した。

コメント

コメントの閲覧・投稿にはログインが必要です。ログイン