本文从训练模型要考虑的第一性原理(稳定性和速度)出发,探讨了 LLM 预训练中的初始化设定问题。

参考文献

  1. MuP之上:1. 好模型的三个特征
  2. https://spaces.ac.cn/archives/11605
  3. https://spaces.ac.cn/archives/11647
  4. https://spaces.ac.cn/archives/11729