講演情報

[4Yin-B-31]強化学習のための日本語設問・解答データセットの構築と大規模言語モデルの推論能力向上数学・科学・コード生成タスクにおける性能改善

〇太田晋¹、片山結太¹、水木栄^1,2、岡崎直観^1,2,3 (1. 東京科学大学、2. 産業技術総合研究所、3. NII LLMC)

キーワード：

強化学習、大規模言語モデル、検証可能な報酬による強化学習、深い推論、データセット構築

本研究では，日本語大規模言語モデル（LLM）の推論能力向上を目的に，数学・科学・コード生成タスクを対象とする日本語設問・解答データセットを構築する．本データセットは，英語の指示学習データセットを基に，設問の邦訳，解答の付与，解答可能性のアノテーションを行い，検証可能な報酬による強化学習 (Reinforcement Learning with Verifiable Rewards; RLVR) に向けた日本語設問・解答ペアを整備した．英語版および日本語版データセットでそれぞれ強化学習を行い，高難易度タスクを含む包括的なベンチマークで性能を比較評価した結果，日本語設問で学習したモデルは日本語の数学・科学・コード生成ベンチマークにおいて一貫した性能向上を示した．これらの結果から，言語に特化したデータセットとRLVRが，日本語LLMの推論能力向上に有効であることを示した．

セッション詳細へ戻る