講演情報

[1Yin-B-16]D-CoT 小型言語モデルにおけるChain-of-Thoughtの効率化

〇生方 俊輔1 (1. 東洋大学)

キーワード:

大規模言語モデル、思考の連鎖、知識蒸留、過剰思考、小規模言語モデル

LLMから蒸留されたCoTは、SLMにおいて過剰思考(Overthinking)を引き起こし、性能劣化や冗長な回答を招く。本研究は、制御タグである<TEMP_LOW>(事実整理)<TEMP_HIGH>(多角的思考)を学習の補助として用い、規律ある推論過程を学習するDisciplined Chain-of-Thought(D-CoT)を提案する。ORPO(Odds Ratio Preference Optimization)を用いた学習により、CoTを最適化することで、推論の迷走を抑制し、モデルの探索の多様性を維持しつつ、トークン数削減と性能向上を同時に達成する。Qwen3-8Bを用いた実験の結果、わずか5k件のデータでGPQA-diamondを9.9%、MMLU-pro(0-shot)を9.1%改善し、同時に出力トークン数の削減による計算コストの低減を確認した。