Presentation Information
[1Yin-A-21]Analyzing Changes in Thinking Processes of LLMs in Oogiri Evaluation through Relative-Assessment-Based RLVR
〇Hiroaki Ito1, Hwichan Kim1,2, Tosho Hirasawa1,2, Ritsu Sakabe1, Souto Ohira1, Mamoru Komachi1 (1. Hitotsubashi University, 2. Tokyo Metropolitan University)
Keywords:
RL,LLM,Oogiri,Humor,NLP
本研究は,大喜利評価タスクに対して事後学習を適用し,ユーモア評価時における大規模言語モデルの思考過程の変化を分析することを目的とする.
既存のユーモア関連のデータでは,得票数といったスコアを付与した事例を比較的容易に収集できる.
そこで,モデルがユーモア評価に有効な思考過程を自発的に獲得することを目指し,検証可能な報酬による強化学習のパイプラインを提案する.
提案手法を適用した結果,大喜利回答の相対評価性能が51.43%から約20ポイント向上した.
さらに,学習後のモデルは,ユーモア評価に重要な言語的特徴(例:文字数の少なさ)を自発的に考慮する傾向を示した.
既存のユーモア関連のデータでは,得票数といったスコアを付与した事例を比較的容易に収集できる.
そこで,モデルがユーモア評価に有効な思考過程を自発的に獲得することを目指し,検証可能な報酬による強化学習のパイプラインを提案する.
提案手法を適用した結果,大喜利回答の相対評価性能が51.43%から約20ポイント向上した.
さらに,学習後のモデルは,ユーモア評価に重要な言語的特徴(例:文字数の少なさ)を自発的に考慮する傾向を示した.
