講演情報

12:30 〜 12:45

[5J2-OS-31a-03]LLMエージェントシステムの品質評価設計に関する実践的考察 ―複数ガイドラインの適用事例から―

〇江澤美保¹ (1. 株式会社クレスコ)

キーワード：

大規模言語モデル、AIエージェント、品質評価、AIガバナンス、ソフトウェア工学

大規模言語モデル（LLM）を活用したシステムは、単純な質問応答型チャットボットから、外部ツールを連携し複数ステップを自律実行するエージェント型へと進化している。国内ではAI事業者ガイドライン、AIセーフティ評価観点ガイド、QA4AIガイドライン等が整備され、品質評価の指針が体系化されつつある。一方、これらを具体的な評価設計に落とし込む実践的手法へのニーズも高まっている。本稿では、機械学習工学研究会LLMドメイン適用WGにおける飲食店注文Botおよび旅行手配Agentを題材とした評価設計ワークショップの事例をもとに、複数ガイドラインの評価観点をどのように優先順位付けしたかを報告する。事例を通じて、システム種別やドメインにより優先すべき評価観点が異なること、「あえて評価しない」判断の重要性を示し、ガイドラインの実務活用に向けた考察を述べる。

セッション詳細へ戻る