講演情報

9:00 〜 9:15

[2L1-GS-10t-01]アルファ多様性およびベータ多様性を基準指標とした、広告文書の識別モデル作成のためのLLMによるデータ拡張

〇河本哲^1,2、秋光淳生²、浅井紀久夫² (1. 株式会社アイモバイル技術本部、2. 放送大学大学院文化科学研究科)

キーワード：

インターネット広告、大規模言語モデル、データ拡張

インターネット広告には，画像や動画のみでなくテキストを付けることで広告の訴求力を高めたものがある．テキストが追加されることにより商品の魅力が伝わりやすくなるメリットが生まれるが，法律上不適切な表現を含んだ広告が配信されるリスクも生じる．そのため，問題のある広告を識別でき解釈性も高い機械学習モデルの構築が重要となり，モデル作成のための学習データ確保も重要な課題となる．学習データ確保の手段としてLLMによるデータ拡張は有望な手法ではあるが，生成文が学習に適するかの判別が不可欠となる．

本研究は，アルファ多様性とベータ多様性による生成文の表現多様性と文書タイプの類似性の指標化を行った．アルファ多様性は，IDFによる重み付きHill Numberで指標化し，ベータ多様性は文脈忠実性・感情度・文法構造などを特徴量にしたロジスティック回帰モデルで指標化した．

指標の評価の結果，LLMによって広告特有の特徴を持った文書が生成されることが示唆されたが，適切な文書カテゴリに属した生成文が出来るかどうかは，慎重な議論を続けるべきであることが示された．

セッション詳細へ戻る