講演情報
[1Yin-A-21]相対評価でのRLVRによるLLMの大喜利評価時の思考過程の変化の分析
〇伊藤 大陽1、金 輝燦1,2、平澤 寅庄1,2、坂部 立1、大平 颯人1、小町 守1 (1. 一橋大学、2. 東京都立大学)
キーワード:
強化学習、大規模言語モデル、大喜利、ユーモア、自然言語処理
本研究は,大喜利評価タスクに対して事後学習を適用し,ユーモア評価時における大規模言語モデルの思考過程の変化を分析することを目的とする.
既存のユーモア関連のデータでは,得票数といったスコアを付与した事例を比較的容易に収集できる.
そこで,モデルがユーモア評価に有効な思考過程を自発的に獲得することを目指し,検証可能な報酬による強化学習のパイプラインを提案する.
提案手法を適用した結果,大喜利回答の相対評価性能が51.43%から約20ポイント向上した.
さらに,学習後のモデルは,ユーモア評価に重要な言語的特徴(例:文字数の少なさ)を自発的に考慮する傾向を示した.
既存のユーモア関連のデータでは,得票数といったスコアを付与した事例を比較的容易に収集できる.
そこで,モデルがユーモア評価に有効な思考過程を自発的に獲得することを目指し,検証可能な報酬による強化学習のパイプラインを提案する.
提案手法を適用した結果,大喜利回答の相対評価性能が51.43%から約20ポイント向上した.
さらに,学習後のモデルは,ユーモア評価に重要な言語的特徴(例:文字数の少なさ)を自発的に考慮する傾向を示した.
