講演情報
[2F6-OS-19b-03]Model Router を使った逐次 LLM 選択による毀損低減効果の検証
〇田口 正一1、中田 百科1、嶋田 達之介1 (1. 株式会社 リクルート)
キーワード:
モデルルーター、バンディットアルゴリズム、大規模言語モデル
現在 LLM は多くの商用サービスに組み込まれており,その出力はコンバージョン等の報酬に影響を与え得る.報酬を高く保つために は,サービスに適合したモデルを選択し続ける必要がある.しかし,そのためには LLM のモデルの選択肢の多さやその特性の多様性,性 能進化の速さや End Of Life サイクルの短さ,そして報酬毀損低減の適切な方法の選択など,多くの課題がある.本研究では以上を解決 するため,バンディットアルゴリズムを用いることで報酬最適な LLM の選択を目指す Model Router を構築した.これは候補モデルの中か ら報酬が高いものを優先的に選択し続けることを意図した機構である.実サービス上での実験の結果,従来の A/B テストを使った選定プ ロセスと比較して,報酬毀損を低減できる可能性が示された.
コメント
コメントの閲覧・投稿にはログインが必要です。ログイン
