The 40th Annual Conference of the Japanese Society for Artificial Intelligence, 2026

Presentation Information

[1Yin-A-21]Analyzing Changes in Thinking Processes of LLMs in Oogiri Evaluation through Relative-Assessment-Based RLVR

〇Hiroaki Ito¹, Hwichan Kim^1,2, Tosho Hirasawa^1,2, Ritsu Sakabe¹, Souto Ohira¹, Mamoru Komachi¹ (1. Hitotsubashi University, 2. Tokyo Metropolitan University)

Keywords:

RL,LLM,Oogiri,Humor,NLP

本研究は，大喜利評価タスクに対して事後学習を適用し，ユーモア評価時における大規模言語モデルの思考過程の変化を分析することを目的とする．
既存のユーモア関連のデータでは，得票数といったスコアを付与した事例を比較的容易に収集できる．
そこで，モデルがユーモア評価に有効な思考過程を自発的に獲得することを目指し，検証可能な報酬による強化学習のパイプラインを提案する．
提案手法を適用した結果，大喜利回答の相対評価性能が51.43%から約20ポイント向上した．
さらに，学習後のモデルは，ユーモア評価に重要な言語的特徴（例：文字数の少なさ）を自発的に考慮する傾向を示した．

Back to Session information