LLM Theory: SMD 02 - Angular Update 才更接近真实改变量
本文是 LLM Theory 下 SMD 专题的第二篇。上一篇主要把 SGD、SGD + weight decay、Adam、AdamW 的径向/切向更新拆开了;这一篇继续沿着这个拆法,讨论几个笔者读 SMD 时觉得更关键的 insight。 Insight 1:为什么只看 Effective Learning Rate 不够 在讨论 normalization 和 weight decay 的联合作用时,有一句非常关键的话: 对于 scale-invariant weight,任务梯度 $\partial L / \partial \boldsymbol{w}$ 总是与权重 $\boldsymbol{w}$ 垂直。因此,梯度分量总是倾向于增大权重范数,而 weight decay 提供的分量总是倾向于减小权重范数。 这句话其实就是 SMD 的基本物理图像: \[ \text{任务梯度} \Rightarrow \text{切向更新,改变方向,同时二阶增大范数} \] \[ \text{Weight Decay} \Rightarrow \text{径向更新,缩小范数} \] 也就是说,在带 normalization 的网络中,SGD 梯度并不是在普通欧氏空间里随便走,而是在球面的切线方向上推动权重转动;weight decay 则像一个向心力,把权重往原点拉。两者共同作用,最终可能让 weight norm 进入一个稳定状态。 但是这里有一个很容易被忽略的问题: Weight decay 可以对冲掉梯度更新导致的 weight norm 增长,但这并不意味着 gradient norm 本身也被稳定住了。 ...