講演情報
[2E1-GS-5b-06]デスクトップAIエージェント評価のための実験プロトコル設計観測証跡に基づく知覚-意思決定-操作の連鎖記録による監査可能性と誤り注入
〇佐々木 友也1,3、伊藤 亮史2、栗原 聡2 (1. 伊藤忠テクノソリューションズ株式会社、2. 慶應義塾大学、3. 慶應AIセンター)
キーワード:
AIエージェント、プロアクティブ支援、Human-AI 協調
ブラウザ・メール・文書・ファイルをまたいで GUI を操作するデスクトップAIエージェントが急速に登場している一方で,モデルの非決定性,環境ドリフト,および測定の不足により評価は依然として脆弱である.本論文では,制御実験のためのプロトコルテンプレートとして,(i) リスクタグと実行可能(または、準実行可能)な成功判定を備えたタスクカード,(ii) リセット手順を含む環境マニフェスト,(iii) 接地した観測証跡を意思決定および UI 操作へ明示的な ID で結ぶ監査可能性志向の証拠連鎖を組み合わせて提案する.さらに,追跡性の階層指標(T1-T4)と,検出定義および停止規則を伴う比較可能な誤り注入手順を定義し,検出遅延の分析を計算可能にする.また,再利用可能なアーティファクトとして,チェックリスト,JSON テンプレート,イベントスキーマ,および検証・指標計算の参照スクリプトを公開し,デスクトップエージェント設計の再現性ある比較評価の出発点を提供する.
