講演情報

[1G4-OS-13b-01]Training-Free GRPOによるCriteria Drift観測:広告コピー品質評価のための自己進化型評価基準

〇北川 廣野1、佐々木 一2,3 (1. 株式会社 電通、2. 株式会社 電通デジタル、3. 東京大学)

キーワード:

Training-Free GRPO、広告、評価指標の進化、広告コピー

生成AIを活用した広告コピー制作が進むなかで、コピー品質の向上の前提となるフィードバック情報の収集にはいくつかの課題がある。第一に、適切な評価を下せるプロのコピーライターは希少で評価コストが高い。第二に、評価基準は評価者の感性に依存し言語化されていないことが多く、LLMによる自動評価が難しい。

本研究は、限られたフィードバックから評価基準を言語的に抽出し、その変容を追跡可能とすることを目的とする。評価基準の変容現象であるCriteria Driftと、文脈更新により判断基準を明示的に扱えるTraining-Free GRPO(TF-GRPO)を統合した評価枠組みを構築し、広告コピーの相対比較を通じて評価観点を経験ライブラリに蓄積、メタ分類器で精緻化する二段階アーキテクチャを設計した。

LLM生成コピーとコピーライター評価データを用いた実証の結果、LOW/HIGH二値分類で高い識別性能を確認した。経験ライブラリは人間の判断と整合する基準を抽出し、反復評価を通じた基準の変化・洗練、すなわちCriteria Driftが観測された。本手法により、暗黙的な評価基準を動的知識構造として記述可能となり、LLMによる広告コピー品質の自動評価と性能向上への道筋を示した。

コメント

コメントの閲覧・投稿にはログインが必要です。ログイン