Presentation Information

[4H5-OS-4c-06]Evaluating an Intent-Comprehending Conversational AI Integrating Cognitive ModelsHow Humans and Large Language Models Evaluate Utterances

〇Ayu Iida1, Masahiko Osawa1 (1. Nihon University)

Keywords:

Mental Model of Others,Cognitive Model

大規模言語モデル(LLM)は,他者の発話と意図が乖離する場合,意図を踏まえた発話生成が困難である.著者らは認知モデルと統合することでこの問題を解決する手法を提案したが,評価は人手であった.本研究の目的は,意図を踏まえた発話の自動評価実現に向けて,評価を行う際のLLMと人間の違いを明らかにすることである.意図を踏まえた応答が求められるシチュエーションにおいて,様々なモデル・パラメータのLLMで発話を生成し,LLMと人間の評価者が評価を行った.結果,LLMは「意図理解」と「応答の適切性」を考慮するが,評価者は前者のみを考慮していた.この違いにより,パラメータによっては適切な応答が生成されない低性能なモデルの評価で両者の間に乖離が見られたが,高性能なモデルでは概ね一致した.