講演情報
[4Yin-B-31]強化学習のための日本語設問・解答データセットの構築と大規模言語モデルの推論能力向上数学・科学・コード生成タスクにおける性能改善
〇太田 晋1、片山 結太1、水木 栄1,2、岡崎 直観1,2,3 (1. 東京科学大学、2. 産業技術総合研究所、3. NII LLMC)
キーワード:
強化学習、大規模言語モデル、検証可能な報酬による強化学習、深い推論、データセット構築
本研究では,日本語大規模言語モデル(LLM)の推論能力向上を目的に,数学・科学・コード生成タスクを対象とする日本語設問・解答データセットを構築する.本データセットは,英語の指示学習データセットを基に,設問の邦訳,解答の付与,解答可能性のアノテーションを行い,検証可能な報酬による強化学習 (Reinforcement Learning with Verifiable Rewards; RLVR) に向けた日本語設問・解答ペアを整備した.英語版および日本語版データセットでそれぞれ強化学習を行い,高難易度タスクを含む包括的なベンチマークで性能を比較評価した結果,日本語設問で学習したモデルは日本語の数学・科学・コード生成ベンチマークにおいて一貫した性能向上を示した.これらの結果から,言語に特化したデータセットとRLVRが,日本語LLMの推論能力向上に有効であることを示した.
