講演情報

[4Yin-B-17]多段推論における言語モデル割当探索による性能-コスト最適化

〇立岩 斉明1、西山 達也1 (1. NTT株式会社)

キーワード:

多段推論、小規模言語モデル、モデル割当、プロンプト最適化、推論コスト最適化

多段推論ではLLM呼び出し回数が増えるため,精度と推論コストのトレードオフが顕在化する.本研究は,自動プロンプト最適化を前提としたときに,ステップ別モデル割当(混成割当)が多段推論の性能–コストに与える効果を検証する.HotpotQA上の2種類の推論パイプラインに対し,単一モデル割当と混成割当をJoint F1と推定GPU使用料金で比較した.結果として,プロンプト最適化の有無と手法にかかわらず,混成割当は単一モデル割当よりもパレート前面を更新した.さらに,プロンプト最適化は一部ステップにおいて大規模モデル依存を低減し,小規模モデルへの置換を促すことを確認した.