LLM System: 算法和 Infra 交织的 RL 杂谈 01 - RL Align 会议纪要与一点思考(AI 总结)
RL AIGC 开发者交流纪要:从模型适配到异步训练系统 这次交流的核心不是单一算法,而是 RL AIGC 训练在工程落地中的系统问题。整体看下来,主要矛盾是:RL 链路把训练、推理、数据流、权重同步、checkpoint 和调试工具全部耦合在一起,而现有框架对这些问题的支持还不够完整。让AI总结了一下会议纪要。 1. 多模态 RL 的更新稳定性 多模态 …
RL AIGC 开发者交流纪要:从模型适配到异步训练系统 这次交流的核心不是单一算法,而是 RL AIGC 训练在工程落地中的系统问题。整体看下来,主要矛盾是:RL 链路把训练、推理、数据流、权重同步、checkpoint 和调试工具全部耦合在一起,而现有框架对这些问题的支持还不够完整。让AI总结了一下会议纪要。 1. 多模态 RL 的更新稳定性 多模态 …
概述 core/dist接入了三种数据并行:torch fsdp2、mcore ddp、mcore fsdp FSDP 流程模型 FSDP就是一种sharding,sharding的对象是param、optim、grad 如图,fsdp的大概做法就是为了不让f/b期间大量模型的layer持续驻留在gpumem,所以会把这一个layer切到不同rank上,需要 …
export概览 export模块做的事情就是需要给用mcore训练出来的模型做一个推理优化,推理框架是trtllm。(为啥,啥地方用?) 那么就得考虑几个问题: 为啥要推理优化,和训练过程中的forward啥区别,什么情况会用。 这里面既然是做推理优化,那么有哪些优化是和训练场景耦合的?哪些优化是必须妥协不能做的?哪些优化手段可以被做成任意推理场景都能随时 …
简述 resharding这个词出现了好几次,rl的resharding,ckpt的resharding,fsdp的resharding,这部分先看ckpt的resharding目的是什么,怎么做的。 ckpt的resharding发生在训练开始前loadckpt的时候,ckpt的格式有三种 …
本篇目标: megatron Checkpoint checkpoint包含如下四类: rng state/rerun state/dalaloader state/model&optim state rngstate是一些伪随机数的序列,因为伪随机数的采样本身就是很好的分布,但如果ckpt没有记录他们的状态,会破坏这种分布,进而给训练带来一些不可预估的问 …
mcore dataset构造协议 不同模型对于“sample”的定义不同,也就是说每一类模型拿来训练的输入是不一样的,哪怕底层数据是一样的。所以就有必要在之上抽象一层dataset类。 主流这三类: GPT 数据-标签形态: tokens = x[0 : L] labels = x[1 : L+1] 任务: 预测下一个tk BERT 数据-标签形态 …
本篇目标: 为什么通信器会死锁 Megatron 的 P2P 通信抽象 batch p2p comm overlap p2p comm warmup / steady / cooldown 里的通信顺序 如何设计防死锁的通信接口 TODO
Transformer 预测 next token 的路线可能是对的,因为这种预测模式特别类似于递推。人类解决问题的方式其实也是递推。当我们能问出问题 A,其实是默认知道了很多关于问题 A 的背景,而问题 A 只是在知道了这么多背景之后的一个单点问题。 那么,如果我们对 A 的背景知之甚少,意味着我们就得先问出 A1、A2、An 等前置问题作为铺垫。这个就是 …