講演情報

[1Yin-A-21]相対評価でのRLVRによるLLMの大喜利評価時の思考過程の変化の分析

〇伊藤大陽¹、金輝燦^1,2、平澤寅庄^1,2、坂部立¹、大平颯人¹、小町守¹ (1. 一橋大学、2. 東京都立大学)

キーワード：

強化学習、大規模言語モデル、大喜利、ユーモア、自然言語処理

本研究は，大喜利評価タスクに対して事後学習を適用し，ユーモア評価時における大規模言語モデルの思考過程の変化を分析することを目的とする．
既存のユーモア関連のデータでは，得票数といったスコアを付与した事例を比較的容易に収集できる．
そこで，モデルがユーモア評価に有効な思考過程を自発的に獲得することを目指し，検証可能な報酬による強化学習のパイプラインを提案する．
提案手法を適用した結果，大喜利回答の相対評価性能が51.43%から約20ポイント向上した．
さらに，学習後のモデルは，ユーモア評価に重要な言語的特徴（例：文字数の少なさ）を自発的に考慮する傾向を示した．

コメントの閲覧・投稿にはログインが必要です。ログイン

セッション詳細へ戻る