講演情報
[4E5-GS-11b-03]日本語LLMを用いたシステムの安全性評価における人手評価とLLM-as-a-Judgeの比較分析
〇藤田 真伎1、駒田 拓也1、藤本 拓1、吉村 健1 (1. 株式会社NTTドコモ)
キーワード:
安全性評価、LLMによる自動評価、日本語LLM
近年,LLMやAIエージェントを用いたシステムの普及に伴い,その安全性評価の重要性が増している.出力の安全性はモデル単体だけでなくシステム構成によっても変動するため,環境に即した評価が不可欠である.特に膨大な運用ログを検証するには人手評価に代わる自動評価(LLM-as-a-Judge)が急務だが,人手との判定基準の不一致が課題となっている.
本研究では,国立情報学研究所(NII)等が公開する「AnswerCarefully」やJHARS等のデータセットと最新LLM 5モデルを用い,5つのリスクカテゴリにおける不一致を詳細に分析した.検証の結果,プロンプトの厳格化は「違法行為」の相関を改善する一方,「ハルシネーション」の過剰検知や,免責文言に起因する「権利侵害」の見逃しを招くことが判明した.
本稿の貢献は,丁寧な表現による有害性の隠蔽や免責文言による判定すり抜けなど,日本語LLM特有の不一致要因を5つに体系化した点にある.これに基づき,カテゴリごとの自動評価の有効性を整理し,実サービスにおける効率的かつ高精度な安全性モニタリングに向けた技術的示唆を提示する.
本研究では,国立情報学研究所(NII)等が公開する「AnswerCarefully」やJHARS等のデータセットと最新LLM 5モデルを用い,5つのリスクカテゴリにおける不一致を詳細に分析した.検証の結果,プロンプトの厳格化は「違法行為」の相関を改善する一方,「ハルシネーション」の過剰検知や,免責文言に起因する「権利侵害」の見逃しを招くことが判明した.
本稿の貢献は,丁寧な表現による有害性の隠蔽や免責文言による判定すり抜けなど,日本語LLM特有の不一致要因を5つに体系化した点にある.これに基づき,カテゴリごとの自動評価の有効性を整理し,実サービスにおける効率的かつ高精度な安全性モニタリングに向けた技術的示唆を提示する.
コメント
コメントの閲覧・投稿にはログインが必要です。ログイン
