大模型后训练系统构建和算法实践

dev@dist.systems · github.com/distsystem

后训练是一个持续运行、持续观测、持续自我演化的复杂系统，其中算法和框架深度融合：将计算、数据、模型、环境、反馈和评估组织成闭环，让智能能够在真实环境中积累经验、修正行为，并走向持续学习与可验证、可控的递归自我提升。

我们从两个方面进行系统构建： 1. 模型训练框架优化：主要面对后训练过程中的超长轨迹，实现MoE超大参数模型的高效FF-BP梯度计算和参数优化更新。 2. 数据基础设施构建：通过消息队列、参数传递通道等数据基础设施构建。这些构建首先提升了训练效率、可观测性和可验证性。更重要的是，而且让从SFT到各种强化学算法可以通过描述性语言的编排实现简单快捷的实现，让算法工程师可以自己构建各种后训练框架，极大提升了后训练阶段算法探索的效率和广度。

通过以上的系统构建，后训练从繁重的工程实践进入到科学化探索。

在过去的几年中，我们持续的进行后训练以及预训练的系统构建，基于这些系统构建，进行了大量的模型算法实践，取得了一些有影响的成果。

模型训练框架优化

我们构建面向万亿级参数模型的分布式训练引擎，支撑 Mid-train、Post-train、多模态训练和 MoE 训练，让这种自主进化过程在大规模集群上保持高吞吐、稳定性和可扩展性。

支撑万亿级参数规模模型的 Mid-train 与 Post-train。
覆盖 Dense、MoE、VLM、Diffusion、VLA 等模型形态。
围绕并行策略、通信优化、Attention 算子和训练 pipeline 提升端到端效率。
在 DeepSeek、Qwen、GPT-OSS、Gemma、Flux、Wan 等模型中验证训练性能。

模型 / 系列	规格 / 版本	MFU
DeepSeek-V3.1	685B-A37B	> 40
GPT-OSS	120B / 20B	> 30
Qwen3	235B-A22B / 30B-A3B	35 ~ 40
Gemma4	gemma4-31B，256K 上下文	> 35

下一代模型负载更加动态：Agent 任务会产生长而高方差的轨迹，Deep Research 会引入检索、浏览、阅读和多步推理，长视频和多模态任务会扩展上下文窗口，MoE 模型则把稀疏激活、专家通信和负载均衡推到系统瓶颈中心。这些 workload 不适合被简化为固定长度、静态 batch、均匀计算的语言模型训练问题。我们围绕 frontier workloads 构建长上下文与稀疏模型训练能力，让复杂任务产生的数据能够以更低成本、更高吞吐和更稳定的方式被吸收到模型中。

超长序列分布式训练框架

后训练，尤其是 Agent 和 Deep Research 场景，会产生大量长而高方差的轨迹数据。Trajectory 长度受任务步数、环境反馈、工具调用、检索阅读和中间推理过程影响，天然呈现长尾分布：少量超长样本会显著拉高最大序列长度，而统一 padding 会造成大量无效 attention 计算和显存浪费。同时，后训练数据往往持续生成、动态筛选、在线混合，很难像预训练一样依赖固定长度分桶或静态阶段划分来规避长度差异。

解决后训练的长序列问题，在“支持更大的上下文窗口”的基础上需要让训练系统能够理解真实 batch 内部的结构，并围绕这些结构动态组织计算、通信和显存。为此，我们构建了以拓扑感知的序列并行框架（SACP，Sequence-Aware Context Parallel）为核心的超长序列分布式训练框架，从计算、通信、负载均衡和显存管理层面提升真实长序列数据下的全局资源利用率。

拓扑感知的序列并行框架 SACP：SACP 的核心思想是把 packed sequence 的真实拓扑暴露给 runtime。在 packing setting 下，SACP 并非把长序列简单视为均匀切分的 token block，而是显式感知 packed sequence 内部的样本边界、注意力拓扑和跨 rank 计算关系，将混合 attention 计算抽象为可编译的序列并行策略中间表示。系统可以根据给定 batch 的真实结构即时生成通信与计算计划，动态决定 attention block 的执行 rank、stage，以及 Q/KV/O/dQ/dKV 的跨 rank 流转方式，从而减少 straggler、降低无效通信，并提升通信与计算重叠效率。

统一注意力计算后端：围绕 SACP，我们构建了统一的 attention 算子库，将 Ulysses Async GQA/MLA、FlashAttention / varlen FA、FlexAttention 等 backend 纳入统一接口，以适配不同模型结构、attention pattern 和硬件约束。对于 Gemma4 等具有特殊 hybrid attention 结构的模型，我们也实现了针对性的高性能算子。SACP 作为上层 runtime，可以根据 batch 结构、CP 拓扑和模型 attention 形态组织合适的 inner attention backend，使 attention backend 从静态组件变为 runtime 可调度资源。
长上下文资源协同优化：为提升端到端效率，我们将 SACP 与 CP-aware / kernel-aware balanced packing、selective recompute 和 selective offload 一同设计。Balanced packing 在 batch 构造阶段引入面向 FA/SACP 的代价模型，根据 attention 计算量、block 分布和跨 rank 调度成本构造更均衡的 global batch，减少长尾样本导致的 straggler；selective recompute/offload 通过选择性重算、异步卸载和按层预取控制 activation memory 峰值。整体方案使长序列后训练在扩展上下文长度的同时保持更高的全局计算资源利用率。

SACP 在长序列配置下，相比 TE FlashAttention、DistFlashAttention、Torch CP等主流序列并行算子取得更低的前反向总时延，并在更高并行度下避免传统 Torch CP 的 OOM 问题，体现出更好的性能和可扩展性。端到端方案支撑 DeepSeek V3/V3.1、Qwen3/Qwen3-VL、Gemma4 等主流模型在各自最大上下文长度下高效训练，使长序列后训练能够在扩展上下文长度的同时保持稳定吞吐。

混合专家模型训练优化

MoE 是扩大模型容量的重要路径，但在万亿参数模型后训练中，它带来的系统问题也更加尖锐。MoE 后训练的效率瓶颈主要来自通信、计算和负载均衡：任务类型、样本长度、工具调用、推理轨迹和数据混合比例都会改变 token routing 分布，使 expert 负载更容易出现不均衡。

同时，MoE 的稀疏激活会带来跨设备 token dispatch / combine，以及大量小规模、动态形状的 expert GEMM，导致通信和计算都更难稳定提高 GPU 利用率。因此，MoE 后训练的关键不只是支持 expert parallel，而是围绕 expert 通信、专家计算、并行切分和负载均衡形成端到端优化。

高效专家并行通信：基于 DeepEP 接入 expert parallel runtime，完成 fused dispatch / combine、异步通信、通信流 buffer 管理和 expert 权重按 EP 维度切分，降低 token routing 对主计算路径的阻塞。
面向混合专家的高性能计算优化：针对 MoE MLP 中大量小规模、ragged GEMM，集成 Expert Group GEMM、FP8 / DeepGEMM 等高性能路径；同时，针对 GPT-OSS 等模型中的 MoE bias、SwiGLU、down-proj backward 等热点，设计 CUTLASS fused MoE kernel，减少 D2H 同步、额外 kernel launch 和中间激活写回。
MoE-aware sharding 与 prefetch：不将 dense block、router 和 expert compute 作为同质模块统一处理，而是根据它们不同的通信模式、精度需求和梯度归约方式，分别配置 sharding、mixed precision、reshard 策略和 prefetch 路径，减少 EP 与 FSDP/HSDP 组合时的额外通信开销。
Sequence-aware load balancing：针对后训练中 packing、长序列和 context parallel 带来的 routing 分布变化，引入更贴近真实 sequence 结构的负载均衡统计，缓解 expert hotspot 和 rank straggler，提升长跑训练中的吞吐稳定性。

通过这些系统化集成与框架层优化，我们能够支撑万亿参数级 MoE 模型在后训练阶段保持较高的计算资源利用率和稳定吞吐。

数据基础设施建设

后训练阶段的核心问题，是如何把模型在真实环境中的行为转化为下一轮自我改进的经验。这要求训练、推理、rollout、评测和数据系统之间形成低延迟闭环：模型生成行为，系统记录行为，评估器识别成功与失败，训练引擎促成模型形成新的行为能力，推理服务再消费更新后的模型。在这个循环中，高延迟 checkpoint、割裂的消息格式和不可复现的轨迹都会削弱闭环演化效率。

Etha：强化学习中的高效张量同步

On-policy Distillation 和强化学习后训练要求模型在训练更新与推理采样之间高速循环。传统 checkpoint 同步延迟高、IO 压力大，gather-broadcast 又容易产生全量权重副本，难以支撑万亿参数和 MoE 模型的高频迭代。Etha 的核心目标，是把权重同步从文件级 checkpoint 操作变成 tensor shard 级在线重分布，让刷新后的模型权重直接同步到 rollout 环境中，降低 stale data，提升闭环演化效率。

跨作业张量重分布：将 PyTorch DTensor redistribution 扩展到独立启动的训练与推理作业之间，支持不同 DeviceMesh、Placement 和并行切分方式。在解耦式 RL 中，训练集群可以按照训练吞吐最优的并行策略组织模型，推理集群可以按照 vLLM 服务吞吐最优的并行策略组织模型，Etha 负责在两种异构布局之间完成在线重分布。在 32 卡 DeepSeek 全量权重同步场景下，端到端同步耗时约 2.5s，能够支撑 on-policy distillation 和 RL 后训练中的高频权重刷新。
零副本 M-to-N 传输：根据源端和目标端真实 shard 关系直接建立 rank-to-rank、slice-to-slice 通信路径，源端只发送自己持有的 shard，目标端只接收所需 shard，避免中间 rank 聚合完整权重。相比 gather-broadcast，这一路径减少显存冗余和无效数据搬运；在 25 个 tensor 的 batch transfer 测试中，M2M + bucket 路径达到约 270 GB/s，相比 gather-broadcast 的约 140 GB/s 接近 2 倍提升。
CUDA IPC + NCCL 直连：Etha 采用 Worker-Agent 分离架构，Worker 只负责注册 tensor 和提交同步请求，Agent 通过 CUDA IPC 获取 GPU tensor 句柄，并直接执行 NCCL send / recv，避免 CPU staging、host roundtrip 和 checkpoint IO。端到端评测中，Etha 等效带宽达到约 33 GB/s/卡，高于 Perplexity 方案的约 12 GB/s/卡和 Ant 方案的约 3 GB/s/卡。
Bucket 化小 tensor 传输优化：真实大模型 state dict 中存在大量 norm、bias、router、MoE 辅助参数等小 tensor，逐 tensor 传输容易受到通信启动开销影响。Etha 在 batch level 将相同通信模式的小 chunk 聚合为 bucket，使小尺寸 tensor 传输性能提升约 3 到 5 倍，显著降低完整权重同步中的长尾开销。
低侵入集成训练与推理框架：Etha 复用 PyTorch 原生 DeviceMesh + Placement 抽象，不要求重写模型结构或引入新的并行描述语言。训练侧通过 TensorBus 注册 DTensor shard，推理侧通过 vLLM worker 注册目标权重 tensor，双方通过统一 batch id 完成在线 send / recv。
面向解耦式 RL 的实践沉淀：Etha 可低成本接入现有分布式训练框架和 vLLM rollout 服务，并用于 vLLM-RL 解耦式 RL 权重同步实践。

LLMM：统一的 LLM Message 中间表示

现代 LLM 系统的行为并不只存在于模型输出中。一段完整会话可能被拆散在 Responses API、Messages API、GenAI、Codex CLI、Claude Code、scaffold、tool runtime 和推理后端之间。提供商 API 形态存在差异且演化速度快，schema、tool call、reasoning state、error、usage、streaming 和 metadata 都可能不同；同一段 agent 行为会在多个系统之间反复转换，并逐渐混入接口噪声。

如果训练系统只能看到最终 response，它学到的就不是完整行为，而是被接口折叠后的残影。LLMM 借鉴 MLIR，引入 typed IR ladder，让不同 API 先进入各自的 surface dialect，再通过 lift / lower 汇入中性的 agentic 表示。多轮对话、工具调用、reasoning state、错误和 usage 因此可以围绕稳定 IR 组织，并通过 trace / replay 保留转换过程中的语义变化。LLMM 连接 Agent 后训练、回放评测、线上推理和 scaffold 接入，目标是把高级 API 逐层降低到 chat、completion 和 token 层，让训练系统学习 agent 行为本身。

统一抽象：把训练对象从 response 升级为 trajectory。后训练样本以完整的 agent 行为链路为单位：模型如何理解任务、规划步骤、调用工具、处理失败并继续推进，直到完成目标。接口差异被隔离在系统边界之外，不进入核心行为表示。
多厂商一等支持：Responses、Messages、GenAI、Codex、Claude Code、BCE、Antigravity 等链路可以保持各自形态，但格式差异、schema 修正、vendor quirk 和兼容性补丁都收敛在边界层处理，不污染核心的 agent 行为表示。系统因此能够快速吸收新的模型接口和 agent runtime，同时保持训练、评测和回放语义稳定。
训练、评测和线上推理共享同一份事实：trace / replay 机制记录轨迹转换、执行结果、loss 事件和运行时状态，使同一段 agent 行为既可以用于训练样本构造，也可以用于失败复现、评测回放和线上行为分析。后训练系统不依赖不可复现的日志碎片，而是拥有可追踪、可重放、可学习的行为账本。
连接高级 Agent API 与底层 token 执行：LLMM 将上层 agent API、chat、completion 以及更底层的 token 表示连接起来，让一段 agent trajectory 能够从框架接口贯通到模型输入的 token stream。

Lakestream：数据湖原生的数据中间件

多模态基础模型训练生命周期需要支撑大规模文本、多模态数据、rollout 轨迹、工具调用日志和评测样本的流式处理。这些数据既有离线批处理特征，也有流式生成特征；既需要长期存储，也需要被快速消费。

传统 pipeline 往往在消息队列、对象存储、离线表和训练数据集之间反复搬运数据，造成重复存储、延迟堆积和计算浪费。Lakestream 的设计目标，是将数据湖本身变成消息队列，通过无服务器方式消除数据重复、存储瓶颈和计算瓶颈。

构建 Lakestream 和多模态分布式数据基础设施。
将模型部署、评测、rollout、后训练采样和训练消费连接成持续数据流，缩短新行为、新任务和新经验进入模型迭代的路径。
通过数据与计算解耦、流式数据管线和多模态数据管理，降低离线 pipeline 的等待成本，支撑从真实使用到模型自主进化的端到端闭环。

从系统视角看，Lakestream 不只是数据基础设施，而是模型演化闭环中的行为信号传导层：它让信号能够在部署、评测、训练和再部署之间持续流动。

大规模智能体训练系统及环境

后训练任务覆盖 Math、Code Agent、Deep Research 和多轮工具调用，训练目标以完整交互轨迹为单位，而不是只优化一次 response。模型需要在任务过程中持续思考、写代码、调用工具、读取网页、执行程序、观察反馈并修正策略；同时，trajectory 长度、执行耗时、工具结果和失败模式都高度动态。围绕这一类 agentic workloads，我们构建面向 Math、Code Agent 和 Deep Research 的后训练实践体系。

高并发沙盒化 Agent Rollout：面向真实工具调用和代码执行场景，构建轻量级沙盒 rollout runtime。模型以 code-as-action 的方式在 Notebook / REPL 环境中完成 “think → code → execute → observe” 循环，每条 trajectory 在独立沙盒中运行，隔离文件系统、临时 workspace、日志和执行状态，避免样本间污染和不受控代码影响训练环境。相比重型容器，轻量沙盒启动成本更低，更适合高并发 agent rollout。
训推解耦的并发采样系统：将 CPU 侧 agent 执行与 GPU 侧模型推理解耦。GPU inference server 只负责模型生成，沙盒 worker 负责工具执行、网页读取、代码运行和轨迹保存；TaskServer / worker pool 负责远程任务调度、并发控制、超时、失败重试和清理。该设计使长耗时、IO 密集、失败模式复杂的 agent 执行能够独立扩展，不阻塞训练和推理资源，也让 GPU 侧高吞吐生成与 CPU / 环境侧高并发执行分别优化。

后训练云基础设施

基础模型闭环从大规模部署开始。只有模型能够被稳定服务、持续观测和系统评估，真实使用中的模型行为才可能重新变成训练信号。因此，云原生能力不是背景设施，而是基础模型持续演化的运行时底座：它决定模型能否被大规模使用，能否产生足够高质量的行为数据，能否在失败中快速定位问题，并能否把线上反馈转化为下一轮训练输入。

构建云原生 AI 集群和 GPU 资源调度平台，支撑训练、推理、后训练和 rollout 任务的统一调度，并支持分钟级大规模集群拉起与小时级弹性资源复用。
支持大规模模型部署、高并发推理服务和沙盒 rollout，为 on-policy 数据生成提供稳定运行环境，并在单一集群上支撑超过 10k 个沙盒的并发训练和推理。
建设日志、观测、评估和真实使用数据回流机制，让线上模型行为能够被结构化、分析并进入下一轮训练。

模型训练算法实践

模型发布

封神榜是中国最早的开源大模型系列，开源模型超过110个，总体下载量达到数百万，是当时中文最大的开源模型体系。
- Ziya 系列模型：首个完成 RLHF 的中文大规模 Chat 模型，在 SuperCLUE 上获得开源模型第一名。
- 5次获得中文权威榜单CLUE榜单第一名。
- 开源了第一个中文原生Stable Diffusion模型“太乙”，一个月几十万下载量，当时同类型模型下载量排名世界第二。
- ziya-llama-13B和ziya2-13B都达到当时中文开源模型最强水平。
- ziya-coding-34B持续一个月在权威AI编程榜单HumanEval上世界第一。
- 多模态大模型ziya-visual为当时中文开源第一名。
- 检索模型ziya-reader所构成的智能体超越OpenAI方案。
- 研发GTS模型生产平台，自动化生产模型的准确率超过人类算法专家最好水平（FewCLUE榜单冠军）。
image
SUS-Chat-34B 在发布版本评测中位列 OpenLLMLeaderboard 第一，超越同一阶段的 DeepSeek 67B，并被开源社区广泛采用。开发者将 SUS-Chat 与 Nous-Hermes-2（Hermes agent 团队开发）合并后，再次取得第一。

SUS-Chat-34B

后训练算法探索与创新

端到端智能体开源工作 L0 验证了多步工具型 Agent RL 相对于单轮文本 RL 的可行路径，是全球最早公开分享多步工具型 Agent RL 训练实践的项目之一。
面向多步 Agent 的 RL 算法与训练策略：针对 agent 任务中奖励天然发生在 step / trajectory 级别，而语言模型优化发生在 token 级别的问题，探索 Agentic Policy Gradient、multi-step verifiable reward、bi-level advantage 以及 REINFORCE++ / KL / DAPO-style filtering 的组合训练 recipe。完整的 think-code 片段被视为 agent action；奖励由答案正确性、格式约束、代码执行质量、长度约束等可验证信号组合得到；step-level reward 进一步映射到 token-level policy optimization。训练过程中，对同一任务采样多条 trajectory，并过滤全对或全错等缺少有效 advantage 信号的 group，在样本不足时继续生成，以提升训练样本的信息密度和策略更新稳定性。核心判断是 agent 后训练不只是让模型多调用工具，而是建立一种把多步行为、环境反馈和 token-level policy learning 对齐起来的训练范式。
从 Math 到 Deep Research 的实践闭环：围绕数学推理、代码执行、QA、多跳检索和 Deep Research 类任务，形成从数据处理、沙盒 rollout、奖励计算、RL 训练到评测的完整闭环。L0 实践覆盖 4B / 7B / 32B 等模型规模，并在 agentic QA、multi-hop reasoning 和 search-style tasks 上验证多步工具型后训练的收益。这条路径把 agent 能力从 prompt engineering 和 scaffold engineering 推向模型本体训练，使模型逐步学习如何在环境中行动、观察、修正和完成任务。

improvement