构建让基础模型持续进化的基础设施
基础模型正在成为现代互联网最核心、也最难被低成本复制的技术资产。它的真正壁垒不只来自模型规模,而来自持续生产智能的能力:把计算、数据、训练、部署、反馈和安全评估连接成一个闭环。我们正在构建面向基础模型演化的全栈基础设施,从云原生 AI 集群到大规模训练与后训练,从在线部署到观测反馈,把真实使用中的模型行为转化为下一轮训练信号。我们的目标,是让模型不再只是一次性训练和发布,而是在持续部署、持续学习和持续训练中不断进化,最终走向可验证、可控的递归自我改进。

基础模型训练引擎
基础模型能力最终需要通过训练系统写入参数。我们构建面向百亿到千亿参数模型的分布式训练引擎,支撑 Mid-train、Post-train、多模态训练和 MoE 训练,是整套基础设施的能力写入层。

- 支撑百亿到千亿参数规模模型的 Mid-train 与 Post-train。
- 覆盖 Dense、MoE、VLM、Diffusion、VLA 等模型形态。
- 围绕并行策略、通信优化、Attention 算子和训练 pipeline 提升端到端效率。
- 在 DeepSeek、Qwen、GPT-OSS、Gemma、Flux、Wan 等模型中验证了训练性能。
| 模型 / 系列 | 规格 / 版本 | MFU |
|---|---|---|
| DeepSeek-V3.1 | 685B-A37B | > 40 |
| GPT-OSS | 120B / 20B | > 30 |
| Qwen3 | 235B-A22B / 30B-A3B | 35 ~ 40 |
| Gemma4 | gemma4-31B,256K 上下文 | > 35 |
面向现代模型架构的全链路训推优化
Agent、Deep Research、长视频、多轮工具调用和 MoE 模型会放大长序列、动态长度、稀疏通信和负载不均等瓶颈。我们围绕这些 frontier workloads 构建长上下文和稀疏模型训练能力,让复杂任务产生的数据能够被高效吸收到模型中。
超长序列分布式训练框架
在后训练尤其是 Agent 场景中,长序列问题被显著放大:trajectory 长度受任务步数、环境反馈、工具调用和中间推理过程影响,天然呈现高方差和长尾分布;少量超长样本会显著拉高最大序列长度,而统一 padding 又会带来大量无效 attention 计算和显存浪费。同时,后训练数据具有持续生成、动态筛选和在线混合的特点,难以依赖预先分桶或固定长度阶段训练规避长度差异。为此,我们构建了以拓扑感知的序列并行框架(SACP,Sequence-Aware Context Parallel)为核心的长序列高效训练方案,从计算、通信、负载均衡和显存管理层面提升真实长序列数据下的全局资源利用率。
- 拓扑感知的序列并行框架 SACP : 在 packing setting 下,SACP 不再将长序列简单视为均匀切分的 token block,而是显式感知 packed sequence 内部的样本边界、注意力拓扑和跨 rank 计算关系,将混合注意力计算抽象为可编译的序列并行策略中间表示。系统可以根据当前 batch 的真实结构即时生成通信与计算计划,动态决定 attention block 的执行 rank、stage,以及 Q/KV/O/dQ/dKV 的跨 rank 流转方式,从而减少负载不均,并提升通信与计算重叠效率。
统一注意力计算后端:围绕 SACP,我们构建了统一的 attention 算子库,将 Ulysses Async GQA/MLA、FlashAttention / varlen FA、FlexAttention 等 backend 纳入统一接口中组合使用,以适配不同模型结构、attention pattern 和硬件约束。对于 Gemma4 等具有特殊 hybrid attention 结构的模型,我们也实现了针对性的高性能算子,使 SACP 可以作为上层 runtime,根据 batch 结构、CP 拓扑和模型 attention 形态组织最合适的 inner attention backend。
长上下文资源协同优化:为了进一步拉满端到端效率,我们将 SACP 与 CP-aware / kernel-aware balanced packing 以及 selective recompute + selective offload 一同设计。Balanced packing 在 batch 构造阶段引入面向 FA/SACP 的代价模型,根据 attention 计算量、block 分布和跨 rank 调度成本构造更均衡的 global batch,减少长尾样本导致的 straggler;selective recompute/offload 则通过选择性重算、异步卸载和按层预取控制 activation memory 峰值。整体上,这套方案使长序列后训练能够在扩展上下文长度的同时,保持更高的全局计算资源利用率。

SACP 在长序列配置下相比 TE FlashAttention、DistFlashAttention、Torch CP 和 FlashAttention2 等主流序列并行算子取得了更低的 FW/BW 总时延,并在更高并行度下避免了传统 Torch CP 的 OOM 问题,体现出更好的性能和可扩展性。端到端来看,该方案已经支撑 DeepSeek V3/V3.1、Qwen3/Qwen3-VL、Gemma4 等主流模型在各自最大上下文长度下高效训练,使长序列后训练能够在扩展上下文长度的同时保持稳定吞吐。
混合专家模型训练优化
在千亿参数模型后训练中,MoE 模型的效率瓶颈主要来自通信、计算和负载均衡三方面。后训练数据分布更加动态,任务类型、样本长度、工具调用和推理轨迹都会影响 token routing,使 expert 负载更容易出现不均衡;同时,MoE 的稀疏激活会带来跨设备 token dispatch / combine,以及大量小规模、动态形状的 expert GEMM,导致通信和计算都更难稳定打满 GPU。因此,MoE 后训练的关键不只是支持 expert parallel,而是要围绕 expert 通信、专家计算、并行切分和负载均衡形成端到端优化。

- 高效专家并行通信:基于 DeepEP 接入 expert parallel runtime,完成 fused dispatch / combine、异步通信、通信流 buffer 管理和 expert 权重按 EP 维度切分,降低 token routing 对主计算路径的阻塞。
- 面向混合专家的高性能计算优化:针对 MoE MLP 中大量小规模、ragged GEMM,集成 Expert Group GEMM、FP8 / DeepGEMM 等高性能路径;同时,针对 GPT-OSS 等模型中的 MoE bias、SwiGLU、down-proj backward 等热点,设计 CUTLASS fused MoE kernel,减少 D2H 同步、额外 kernel launch 和中间激活写回。
- MoE-aware sharding 与 prefetch:不将 dense block、router 和 expert compute 作为同质模块统一处理,而是根据它们不同的通信模式、精度需求和梯度归约方式,分别配置 sharding、mixed precision、reshard 策略和 prefetch 路径,减少 EP 与 FSDP/HSDP 组合时的额外通信开销。
- Sequence-aware load balancing:针对后训练中 packing、长序列和 context parallel 带来的 routing 分布变化,引入更贴近真实 sequence 结构的负载均衡统计,缓解 expert hotspot 和 rank straggler,提升长跑训练中的吞吐稳定性。
通过这些系统化集成与框架层优化,我们能够支撑千亿参数级 MoE 模型在后训练阶段保持较高的计算资源利用率和稳定吞吐。
构建在线学习和后训练的基础设施
LLMM: 统一的agentic中间表示
随着模型性能的提升, LLM API vendor反而在不断分裂(responses/messages/genai…),同时高级表示和vLLM等推理引擎真实接受到的token也有抽象level上的巨大差异,这对agentic训练和推理造成了巨大的阻碍. LLMM基于MLIR的思想,用中性的统一中间表示统一了所有agentic dialect并通过IR ladder打通了从任意高级api到token sequence的转换, 解决了agentic后训练/推理/接入scaffold中的mxnxk的问题.
Etha:打通强化学习的高效张量同步
On-policy Distillation 和强化学习后训练要求模型在训练更新与推理采样之间高速循环。传统 checkpoint 同步延迟高、IO 压力大,gather-broadcast 又容易产生全量权重副本,难以支撑千亿参数和 MoE 模型的高频迭代。我们构建了 Etha / Tensor-bus,将训推同步从 checkpoint 级离线加载提升为 tensor shard 级在线重分布,让最新模型能力能够快速回到 rollout 环境中,降低 stale data,提升持续学习闭环的效率。

- 跨作业张量重分布:将 PyTorch DTensor redistribution 扩展到独立启动的训练与推理作业之间,支持不同 DeviceMesh、Placement 和并行切分方式。在解耦式 RL 中,训练集群可以按照训练吞吐最优的并行策略组织模型,推理集群可以按照 vLLM 服务吞吐最优的并行策略组织模型,Etha 负责在两种异构布局之间完成在线重分布。在 32 卡 DeepSeek 全量权重同步场景下,端到端同步耗时约 2.5s,能够支撑 on-policy distillation 和 RL 后训练中的高频权重刷新。
- 零副本 M-to-N 传输:根据源端和目标端真实 shard 关系直接建立 rank-to-rank、slice-to-slice 通信路径,源端只发送自己持有的 shard,目标端只接收所需 shard,避免中间 rank 聚合完整权重。相比 gather-broadcast,这一路径减少了显存冗余和无效数据搬运;在 25 个 tensor 的 batch transfer 测试中,M2M + bucket 路径达到约 270 GB/s,相比 gather-broadcast 的约 140 GB/s 接近 2 倍提升。
- CUDA IPC + NCCL 直连:Etha 采用 Worker-Agent 分离架构,Worker 只负责注册 tensor 和提交同步请求,Agent 通过 CUDA IPC 获取 GPU tensor 句柄,并直接执行 NCCL send / recv,避免 CPU staging、host roundtrip 和 checkpoint IO。端到端评测中,Etha 等效带宽达到约 33 GB/s/卡,高于 Perplexity 方案的约 12 GB/s/卡 和 Ant 方案的约 3 GB/s/卡。
- Bucket 化小 tensor 传输优化:真实大模型 state dict 中存在大量 norm、bias、router、MoE 辅助参数等小 tensor,逐 tensor 传输容易受到通信启动开销影响。Etha 在 batch level 将相同通信模式的小 chunk 聚合为 bucket,使小尺寸 tensor 传输性能提升约 3–5 倍,显著降低完整权重同步中的长尾开销。
- 低侵入集成训练与推理框架:Etha 复用 PyTorch 原生 DeviceMesh + Placement 抽象,不要求重写模型结构或引入新的并行描述语言。训练侧通过 TensorBus 注册 DTensor shard,推理侧通过 vLLM worker 注册目标权重 tensor,双方通过统一 batch id 完成在线 send / recv。
- 这种设计使 Etha 能够低成本接入现有分布式训练框架和 vLLM rollout 服务,目前也在与 vLLM-RL 团队合作,围绕解耦式 RL 权重同步实践撰写技术 blog。
Lakestream: 数据湖原生的数据中间件
多模态基础模型训练生命周期需要支撑大规模文本、多模态数据、rollout轨迹、工具调用日志和评测样本的流式处理。我们构建了Lakestream(数据湖作为消息队列), 通过无服务器的方式将数据湖作为消息队列, 彻底消除了数据重复, 存储和运算瓶颈

- 构建 Lakestream 和多模态分布式数据基础设施,
- 将模型部署、评测、rollout、后训练采样和训练消费连接成持续流动的数据飞轮,让新行为、新任务和新学习信号更快进入模型迭代。
- 通过数据与计算解耦、流式数据管线和多模态数据管理,降低离线 pipeline 的等待成本,支撑从真实使用到持续学习的端到端闭环。
Cloud-native AI Ops
基础模型闭环从大规模部署开始。只有模型能够被稳定服务、持续观测和系统评估,真实使用中的模型行为才可能重新变成训练信号。因此,云原生能力不是背景设施,而是基础模型持续演化的运行时底座。
- 构建云原生 AI 集群和 GPU 资源调度平台,支撑训练、推理、后训练和 rollout 任务的统一调度。
- 分钟级进行大规模集群的拉起, 实现弹性资源按小时级别的复用
- 支持大规模模型部署、高并发推理服务和沙盒 rollout,为 on-policy 数据生成提供稳定运行环境。
- 实现在单一集群上超过10k沙盒的并发训练和推理
- 建设日志、观测、评估和真实使用数据回流机制,让线上模型行为能够被结构化、分析并进入下一轮训练。

Post-training Practices on Math / Code Agent / Deep Research
随着后训练任务从单轮数学问答扩展到 Code Agent、Deep Research 和多轮工具调用,训练目标不再只是优化一次 response,而是优化完整的交互轨迹。模型需要在任务过程中持续进行思考、写代码、调用工具、读取网页、执行程序、观察反馈并修正策略;同时,trajectory 长度、执行耗时、工具结果和失败模式都高度动态。围绕这一类 agentic workloads,我们构建了面向 Math / Code Agent / Deep Research 的后训练实践体系,早期成果包括开源工作 L0,验证了从单轮文本 RL 走向多步工具型 Agent RL 的可行路径。

- 高并发沙盒化 Agent Rollout:面向真实工具调用和代码执行场景,构建轻量级沙盒 rollout runtime。模型以 code-as-action 的方式在 Notebook / REPL 环境中完成 “think → code → execute → observe” 循环,每条 trajectory 在独立沙盒中运行,隔离文件系统、临时 workspace、日志和执行状态,避免样本间污染和不受控代码影响训练环境。相比重型容器,轻量沙盒启动成本更低,更适合高并发 agent rollout。
- 训推解耦的并发采样系统:将 CPU 侧 agent 执行与 GPU 侧模型推理解耦。GPU inference server 只负责模型生成,沙盒 worker 负责工具执行、网页读取、代码运行和轨迹保存;TaskServer / worker pool 负责远程任务调度、并发控制、超时、失败重试和清理。该设计使长耗时、IO 密集、失败模式复杂的 agent 执行能够独立扩展,不阻塞训练和推理资源。
- 面向多步 Agent 的 RL 算法与训练策略:针对 agent 任务中奖励天然发生在 step / trajectory 级别、而语言模型优化发生在 token 级别的问题,探索了 Agentic Policy Gradient、multi-step verifiable reward、bi-level advantage 以及 REINFORCE++ / KL / DAPO-style filtering 的组合训练 recipe。完整的 think-code 片段被视为 agent action;奖励由答案正确性、格式约束、代码执行质量、长度约束等可验证信号组合得到;step-level reward 进一步映射到 token-level policy optimization。训练过程中,对同一任务采样多条 trajectory,并过滤全对或全错等缺少有效 advantage 信号的 group,在样本不足时继续生成,以提升训练样本的信息密度和策略更新稳定性。
- 从 Math 到 Deep Research 的实践闭环:围绕数学推理、代码执行、QA、多跳检索和 Deep Research 类任务,形成了从数据处理、沙盒 rollout、奖励计算、RL 训练到评测的完整闭环。早期 L0 实践覆盖 4B / 7B / 32B 等模型规模,并在 agentic QA、multi-hop reasoning 和 search-style tasks 上验证了多步工具型后训练的收益。

基础设施与算法 Co-design
- 发布了中国最早的开源大模型系列封神榜, 总体下载量数百万, 包括
- taiyi:最早发布的中文文生图Diffusion模型,在高质量中文图文对上进行大规模Mid Training
- Ziya系列模型:首批发布的完成RLHF的中文百亿Chat模型
- SUS-Chat-34B:发布时在OpenLLMLeaderboard排名第一, 超越了同期发布的Deepseek 67B, 并被开源社区广泛采用, 后续开发者将SUS-Chat与Nous-Hermes-2(hermes agent团队开发)合并再次取得第一