Presentation Information
[4Yin-B-17]Performance–Cost Optimization Based on Step-Wise Language Model Assign-ment Search in Multi-Step Inference
〇Nariaki Tateiwa1, Tatsuya Nishiyama1 (1. NTT, Inc.)
Keywords:
multi-step inference,small language model,model assignment,automatic prompt optimization,inference cost optimization
多段推論ではLLM呼び出し回数が増えるため,精度と推論コストのトレードオフが顕在化する.本研究は,自動プロンプト最適化を前提としたときに,ステップ別モデル割当(混成割当)が多段推論の性能–コストに与える効果を検証する.HotpotQA上の2種類の推論パイプラインに対し,単一モデル割当と混成割当をJoint F1と推定GPU使用料金で比較した.結果として,プロンプト最適化の有無と手法にかかわらず,混成割当は単一モデル割当よりもパレート前面を更新した.さらに,プロンプト最適化は一部ステップにおいて大規模モデル依存を低減し,小規模モデルへの置換を促すことを確認した.
