講演情報

12:45 〜 13:00

[5F2-GS-10m-04]Contextual BanditとLLM-as-a-Judgeを組み合わせた質問カテゴリ分類

〇和田計也¹、木部昌平¹、畑玲音² (1. 株式会社Lupinus、2. JCOM株式会社)

キーワード：

コンテクスチュアルバンディット、LLM-as-a-Judge、適応的最適化

本論文では，質問カテゴリ分類をオンライン意思決定問題として捉え，コンテクチュアルバンディット（Contextual Bandit）に基づいてオンラインで適応的に改善可能な分類システムを提案する．従来のルールベースや静的な分類器では，ユーザークエリの多様性と動的な文脈に対応することが困難であり，またLLMを分類器としてそのまま適用する場合でも，フィードバックを活用した適応的な継続学習にはファインチューニングが必要となり，計算コストの観点から現実的ではないという課題がある．提案手法では，LinUCBアルゴリズムを用いてクエリを「雑談」または「検索」に分類し，各カテゴリに基づく回答を並列生成する．さらにLLM-as-a-Judge機構を導入し，生成された候補回答の中からJudgeが最適と判定したカテゴリとの一致度に基づいて差分報酬を計算することで，誤分類に対する適応的な方策更新を可能とする．この報酬設計により，追加学習の計算コストを抑えつつ，ユーザー応答の適合度に基づいて分類方策を継続的に改善できることを示す．

コメントの閲覧・投稿にはログインが必要です。ログイン

セッション詳細へ戻る