講演情報

10:15 〜 10:30

[2E1-GS-5b-06]デスクトップAIエージェント評価のための実験プロトコル設計観測証跡に基づく知覚-意思決定-操作の連鎖記録による監査可能性と誤り注入

〇佐々木友也^1,3、伊藤亮史²、栗原聡² (1. 伊藤忠テクノソリューションズ株式会社、2. 慶應義塾大学、3. 慶應AIセンター)

キーワード：

AIエージェント、プロアクティブ支援、Human-AI 協調

ブラウザ・メール・文書・ファイルをまたいで GUI を操作するデスクトップAIエージェントが急速に登場している一方で，モデルの非決定性，環境ドリフト，および測定の不足により評価は依然として脆弱である．本論文では，制御実験のためのプロトコルテンプレートとして，(i) リスクタグと実行可能（または、準実行可能）な成功判定を備えたタスクカード，(ii) リセット手順を含む環境マニフェスト，(iii) 接地した観測証跡を意思決定および UI 操作へ明示的な ID で結ぶ監査可能性志向の証拠連鎖を組み合わせて提案する．さらに，追跡性の階層指標（T1-T4）と，検出定義および停止規則を伴う比較可能な誤り注入手順を定義し，検出遅延の分析を計算可能にする．また，再利用可能なアーティファクトとして，チェックリスト，JSON テンプレート，イベントスキーマ，および検証・指標計算の参照スクリプトを公開し，デスクトップエージェント設計の再現性ある比較評価の出発点を提供する．

コメントの閲覧・投稿にはログインが必要です。ログイン

セッション詳細へ戻る