Presentation Information

[4E5-GS-11b-03]A Comparative Analysis of Human Evaluation and LLM-as-a-Judge for Safety Evaluation of Japanese LLM-based Systems

〇Masaki Fujita1, Takuya Komada1, Hiroshi Fujimoto1, Takeshi Yoshimura1 (1. NTT DOCOMO, INC)

Keywords:

Safety Evaluation,LLM-as-a-Judge,Japanese LLMs

近年,LLMやAIエージェントを用いたシステムの普及に伴い,その安全性評価の重要性が増している.出力の安全性はモデル単体だけでなくシステム構成によっても変動するため,環境に即した評価が不可欠である.特に膨大な運用ログを検証するには人手評価に代わる自動評価(LLM-as-a-Judge)が急務だが,人手との判定基準の不一致が課題となっている.
本研究では,国立情報学研究所(NII)等が公開する「AnswerCarefully」やJHARS等のデータセットと最新LLM 5モデルを用い,5つのリスクカテゴリにおける不一致を詳細に分析した.検証の結果,プロンプトの厳格化は「違法行為」の相関を改善する一方,「ハルシネーション」の過剰検知や,免責文言に起因する「権利侵害」の見逃しを招くことが判明した.
本稿の貢献は,丁寧な表現による有害性の隠蔽や免責文言による判定すり抜けなど,日本語LLM特有の不一致要因を5つに体系化した点にある.これに基づき,カテゴリごとの自動評価の有効性を整理し,実サービスにおける効率的かつ高精度な安全性モニタリングに向けた技術的示唆を提示する.

Comment

To browse or post comments, you must log in.Log in