<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>RLHF on Echo的技术博客</title><link>https://cybersecurityerial.github.io/echo_blog/tags/rlhf/</link><description>Recent content in RLHF on Echo的技术博客</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Sun, 21 Jun 2026 00:00:00 +0800</lastBuildDate><atom:link href="https://cybersecurityerial.github.io/echo_blog/tags/rlhf/index.xml" rel="self" type="application/rss+xml"/><item><title>LLM System: 算法和 Infra 交织的 RL 杂谈 01 - RL Align 会议纪要与一点思考（AI 总结）</title><link>https://cybersecurityerial.github.io/echo_blog/posts/llm-system-rl-algorithm-infra-notes-01-rl-align-meeting-notes/</link><pubDate>Sun, 21 Jun 2026 00:00:00 +0800</pubDate><guid>https://cybersecurityerial.github.io/echo_blog/posts/llm-system-rl-algorithm-infra-notes-01-rl-align-meeting-notes/</guid><description>&lt;h1 id="rl-aigc-开发者交流纪要从模型适配到异步训练系统"&gt;RL AIGC 开发者交流纪要：从模型适配到异步训练系统&lt;/h1&gt;
&lt;p&gt;这次交流的核心不是单一算法，而是 RL AIGC 训练在工程落地中的系统问题。整体看下来，主要矛盾是：RL 链路把训练、推理、数据流、权重同步、checkpoint 和调试工具全部耦合在一起，而现有框架对这些问题的支持还不够完整。让AI总结了一下会议纪要。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="1-多模态-rl-的更新稳定性"&gt;1. 多模态 RL 的更新稳定性&lt;/h2&gt;
&lt;p&gt;多模态 RL 中，有一种做法是：如果某次参数更新和当前模型之间的 diff 超过阈值，就直接舍弃这次更新。&lt;/p&gt;
&lt;p&gt;这个机制可以避免异常 update 破坏模型状态：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;异常 batch / 异常 reward / 异常 rollout
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; ↓
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;参数更新过大
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt; ↓
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;超过阈值后舍弃本次更新
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;但它只能止损，不能解释问题来源。真正需要的是面向 RL 的 debugger，能够定位是 reward、logprob、rollout、并行切分还是权重同步出了问题。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="2-新模型接入成本高"&gt;2. 新模型接入成本高&lt;/h2&gt;
&lt;p&gt;如果要把一个新模型接入 RL 训练框架，往往需要手写 Megatron、FSDP 或其他并行逻辑的适配。&lt;/p&gt;
&lt;p&gt;难点不只是 forward 能跑，而是整个 RL 链路都要对齐：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;模型结构
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;并行切分
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;checkpoint / reshard
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;rollout 权重同步
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;logprob 计算
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;loss 计算
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;训练侧和推理侧的数据格式
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;RL 场景下，模型适配错误不一定马上报错，很多时候只表现为训练逐渐崩掉。因此新模型适配需要更强的调试工具，比如检查权重版本、logprob 对齐、reshard 正确性和并行切分一致性。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="3-rl-训练周期长问题复现成本高"&gt;3. RL 训练周期长，问题复现成本高&lt;/h2&gt;
&lt;p&gt;RL 训练周期通常很长，一个周期可能需要几天。很多问题不会在前几个 step 暴露，而是在训练一段时间后才出现。&lt;/p&gt;</description></item></channel></rss>