LLM Theory 02: 第一性原理下的训练设定

本文从训练模型要考虑的第一性原理(稳定性和速度)出发,探讨了 LLM 预训练中的初始化设定问题。 参考文献 MuP之上:1. 好模型的三个特征 https://spaces.ac.cn/archives/11605 https://spaces.ac.cn/archives/11647 https://spaces.ac.cn/archives/11729

May 6, 2026 · 1 min