講演情報

[1Yin-B-16]D-CoT 小型言語モデルにおけるChain-of-Thoughtの効率化

〇生方俊輔¹ (1. 東洋大学)

キーワード：

大規模言語モデル、思考の連鎖、知識蒸留、過剰思考、小規模言語モデル

LLMから蒸留されたCoTは、SLMにおいて過剰思考（Overthinking）を引き起こし、性能劣化や冗長な回答を招く。本研究は、制御タグである<TEMP_LOW>（事実整理）<TEMP_HIGH>（多角的思考）を学習の補助として用い、規律ある推論過程を学習するDisciplined Chain-of-Thought（D-CoT）を提案する。ORPO（Odds Ratio Preference Optimization）を用いた学習により、CoTを最適化することで、推論の迷走を抑制し、モデルの探索の多様性を維持しつつ、トークン数削減と性能向上を同時に達成する。Qwen3-8Bを用いた実験の結果、わずか5k件のデータでGPQA-diamondを9.9%、MMLU-pro（0-shot）を9.1%改善し、同時に出力トークン数の削減による計算コストの低減を確認した。

コメントの閲覧・投稿にはログインが必要です。ログイン

セッション詳細へ戻る