Presentation Information

9:45 AM - 10:00 AM JST(12:45 AM - 1:00 AM UTC)

[D-8-04]Cross-Model Comparison of SAE Feature Contributions to Output Probabilities

〇Yuta Yuzurihara¹, Tomofumi Matsuzawa¹, Kaiyu Suzuki¹ (1. TUS)

Mechanistic Interpretability,LLM,Sparse Autoencoders