The 40th Annual Conference of the Japanese Society for Artificial Intelligence, 2026

Presentation Information

4:15 PM - 4:30 PM JST(7:15 AM - 7:30 AM UTC)

[4E5-GS-11b-04]Exploring the Potential for Reward Hacking Mitigation Through LLM Steering

〇Taiga Sano¹, Masami Takahashi¹ (1. NTT, Inc.)

Keywords:

LLM,Reward Hacking,Reinforcement learning,Mechanistic Interpretability,Explainability

報酬ハッキングはLLMが強化学習の中で冗長で不明瞭な回答やテストケースの改変等の不適切な挙動を学習する問題であり，LLMの安全・安心な利活用を阻害する．
従来，報酬ハッキングへの対策は報酬関数である報酬モデルや検証器への対策が中心であり，方策モデルであるLLMへの対策はほとんど検討されていなかった．
しかし，報酬モデルへの対策はコストが高く，問題設定が変更されるたびに対策の再設計が必要となる．
一方で，報酬ハッキングと同様にLLMの不適切な挙動であるハルシネーションや心理的Jailbreakの研究では，LLM内部状態の監視・制御により低いコストで一貫した有害行動の低減効果が認められている．
本研究では，検証可能な報酬を用いた強化学習に着目し，LLM内部状態の監視・制御に基づく報酬ハッキング低減の可能性について検討する．
本来のタスク達成能力を向上させるためのモデルパラメータの増加やChain of Thoughtの導入が報酬ハッキングも増加させることを確認し，内部状態の監視や制御によってタスク達成能力を維持しながら報酬ハッキング挙動を抑制することが可能か調査する．

Back to Session information