Presentation Information

[5F2-GS-10m-04]Question Category Classification with Contexual Bandit Algorithms and an LLM-as-a-Judge

〇Kazuya WADA1, Shohei Kibe1, Reon Hata2 (1. Lupinus Inc., 2. JCOM Co., Ltd.)

Keywords:

Contextual Bandit,LLM-as-a-Judge,adaptive optimization

本論文では,質問カテゴリ分類をオンライン意思決定問題として捉え,コンテクチュアルバンディット(Contextual Bandit)に基づいてオンラインで適応的に改善可能な分類システムを提案する.従来のルールベースや静的な分類器では,ユーザークエリの多様性と動的な文脈に対応することが困難であり,またLLMを分類器としてそのまま適用する場合でも,フィードバックを活用した適応的な継続学習にはファインチューニングが必要となり,計算コストの観点から現実的ではないという課題がある.提案手法では,LinUCBアルゴリズムを用いてクエリを「雑談」または「検索」に分類し,各カテゴリに基づく回答を並列生成する.さらにLLM-as-a-Judge機構を導入し,生成された候補回答の中からJudgeが最適と判定したカテゴリとの一致度に基づいて差分報酬を計算することで,誤分類に対する適応的な方策更新を可能とする.この報酬設計により,追加学習の計算コストを抑えつつ,ユーザー応答の適合度に基づいて分類方策を継続的に改善できることを示す.

Comment

To browse or post comments, you must log in.Log in