講演情報
[2Yin-A-23]Noise injectionによるAI Sandbagging検出の理論的考察
〇梶 大介1,3、山崎 啓介2 (1. 国立大学法人静岡大学、2. 国立研究開発法人 産業技術総合研究所、3. 株式会社デンソー)
キーワード:
サンドバッギング検出、特異学習理論、AIの安全性、ベイズ学習、ノイズ注入
近年、人工知能の分野では Sandbagging(SB) と呼ばれる現象、すなわち AI システムが規制回避や能力の過小申告を目的として評価時に意図的に実力を低く見せる行為が大きな注目を集めている.SB の検出は AI の安全性評価における重要課題であり、監視用 AI エージェントの活用をはじめ、さまざまな検出手法が提案されている.本稿では、その中でも AI Metacognition Toolkit にも実装されている、モデルパラメータへのノイズ付加(noise injection)によって SB モデルの性能が向上するという現象を利用した検出手法(Noise Injection Probing) に着目し、この効果が生じる理由および発現条件について理論的な考察を行う.具体的には、回帰モデルにおける Bayes 汎化誤差の漸近展開 を用いてノイズ付加の影響を定式化し、性能向上に寄与する主要項を特定する.また、理論的考察の妥当性を確認するため、小規模なニューラルネットワークモデルを用いた実験を行い、その挙動が理論と一致することを確認した.
