講演情報

[4K4-GS-6b-04]対話システムにおける雑談の品質評価基準の検討および品質評価システム構築の試み

〇蛭川 秀一1、後藤 裕也1、塩見 誠1、新庄 信次1、吉田 茂人1 (1. シャープ株式会社)

キーワード:

大規模言語モデル、対話システム、日本語、自動評価システム、雑談

利用者に寄り添う対話システムの実現には「会話の好ましさ」を定量的に評価できる手法が不可欠だが、日本語においては従来、総合的な評価手法が確立されていなかった。 本研究では、会話の好ましさを多面的に捉える自動評価システムを構築した。 まず文献調査により、人間の感性に影響を与える29の要素を抽出し、基礎的要素9、属人的要素13、対話システム依存要素7に分類した。本研究では特に基礎的な9要素に注目し、主観評価実験を通じて各要素の感度と重要度を分析した。次に、その結果に基づき9要素それぞれにLLM-as-a-judgeによる評価プロンプトを設計し、総合得点の算出方法を検討して自動評価システムを構築した。対話エージェントの応答を評価した結果、人間評価との高い相関が得られた。 今後は属人的要素も取り入れ、より人間志向な対話システムの実現を目指す。