最近文章

LLM System: 算法和 Infra 交织的 RL 杂谈 01 - RL Align 会议纪要与一点思考（AI 总结）

RL AIGC 开发者交流纪要：从模型适配到异步训练系统这次交流的核心不是单一算法，而是 RL AIGC 训练在工程落地中的系统问题。整体看下来，主要矛盾是：RL 链路把训练、推理、数据流、权重同步、checkpoint 和调试工具全部耦合在一起，而现有框架对这些问题的支持还不够完整。让AI总结了一下会议纪要。 1. 多模态 RL 的更新稳定性多模态 …

LLM System: 训练框架随笔 09 - Megatron Core Distributed DDP 和 FSDP

概述 core/dist接入了三种数据并行：torch fsdp2、mcore ddp、mcore fsdp FSDP 流程模型 FSDP就是一种sharding，sharding的对象是param、optim、grad 如图，fsdp的大概做法就是为了不让f/b期间大量模型的layer持续驻留在gpumem，所以会把这一个layer切到不同rank上，需要 …

LLM System: 训练框架随笔 07 - MCore Export

export概览 export模块做的事情就是需要给用mcore训练出来的模型做一个推理优化，推理框架是trtllm。（为啥，啥地方用？）那么就得考虑几个问题：为啥要推理优化，和训练过程中的forward啥区别，什么情况会用。这里面既然是做推理优化，那么有哪些优化是和训练场景耦合的？哪些优化是必须妥协不能做的？哪些优化手段可以被做成任意推理场景都能随时 …

LLM System: 训练框架随笔 08 - MCore Checkpoint Resharding

简述 resharding这个词出现了好几次，rl的resharding，ckpt的resharding，fsdp的resharding，这部分先看ckpt的resharding目的是什么，怎么做的。 ckpt的resharding发生在训练开始前loadckpt的时候，ckpt的格式有三种 …

LLM System: 训练框架随笔 05 - Megatron Checkpoint

本篇目标： megatron Checkpoint checkpoint包含如下四类： rng state/rerun state/dalaloader state/model&optim state rngstate是一些伪随机数的序列，因为伪随机数的采样本身就是很好的分布，但如果ckpt没有记录他们的状态，会破坏这种分布，进而给训练带来一些不可预估的问 …

LLM System: 训练框架随笔 06 - Megatron Dataset

mcore dataset构造协议不同模型对于“sample”的定义不同，也就是说每一类模型拿来训练的输入是不一样的，哪怕底层数据是一样的。所以就有必要在之上抽象一层dataset类。主流这三类： GPT 数据-标签形态： tokens = x[0 : L] labels = x[1 : L+1] 任务：预测下一个tk BERT 数据-标签形态 …

LLM System: 训练框架随笔 04 - Megatron 通信器设计：如何防死锁

本篇目标：为什么通信器会死锁 Megatron 的 P2P 通信抽象 batch p2p comm overlap p2p comm warmup / steady / cooldown 里的通信顺序如何设计防死锁的通信接口 TODO

《哲学研究》读书笔记 01：next token predict，递推和增量

Transformer 预测 next token 的路线可能是对的，因为这种预测模式特别类似于递推。人类解决问题的方式其实也是递推。当我们能问出问题 A，其实是默认知道了很多关于问题 A 的背景，而问题 A 只是在知道了这么多背景之后的一个单点问题。那么，如果我们对 A 的背景知之甚少，意味着我们就得先问出 A1、A2、An 等前置问题作为铺垫。这个就是 …