DeepSeek V4 模型在 SGLang 中的系统级优化与全栈适配

4月25日，当 DeepSeek-V4 带着 1.6 万亿参数（Pro版）和百万级上下文窗口的震撼配置横空出世时，整个大模型圈的目光都聚焦在了它极具野心的架构革新上：混合稀疏注意力（CSA+HCA）、流形约束超连接（mHC）以及 FP4 专家权重。

然而，对于广大开发者和企业用户而言，面对如此庞大且复杂的 MoE 模型，最大的疑问往往紧随其后——“如此强悍的模型，到底能不能跑得动？跑得稳？跑得快？”

就在 DeepSeek-V4 发布的同一天，SGLang 就宣布完成对 DeepSeek-V4 的“Day-0”全面支持。这不仅是一次常规的模型接入，更是一场针对底层架构的系统级优化与全栈适配的硬核突围。

DeepSeek-V4 的核心挑战在于其打破了传统 Transformer 的计算范式。为了在百万 Token 的超长上下文中保持高效，V4 引入了极其复杂的混合注意力机制（SWA + C4/C128 压缩）。传统的推理框架在面对这种异构 KV 缓存池时，往往束手无策，前缀缓存效率极低，且显存占用巨大。

SGLang 团队之所以能在首日就实现完美适配，正是源于其对推理系统底层的深度重构。面对 V4 的混合注意力，SGLang 并没有采取简单的兼容策略，而是祭出了“ShadowRadix”这一杀手锏。

它通过建立统一的虚拟全 Token 槽位坐标系，将 SWA、C4、C128 等异构池进行“阴影”映射，实现了复杂混合注意力下的原生前缀缓存。这意味着，即便面对百万级长文本，系统也能精准复用历史计算结果，极大降低了首字延迟。

此外，针对 V4 引入的 FP4 专家权重和复杂的 MoE 调度，SGLang 深度集成了 FlashInfer TRTLLM-Gen 和 DeepGEMM Mega MoE 等前沿算子，并配合 HiSparse 技术将非活跃 KV 缓存智能卸载至 CPU 内存。

这一系列组合拳，不仅让 DeepSeek-V4 在 Blackwell 等新一代硬件上如虎添翼，更在 Hopper 等主流算力上实现了吞吐量的数倍提升，真正做到了“开箱即用”且“性能拉满”。

从底层算子的极速融合，到强化学习训练全链路的打通，SGLang 展现了一个顶级推理框架的工程素养。但这背后的技术细节远比我们看到的更加深邃：ShadowRadix 的索引机制究竟如何设计？HiSparse 又是如何在保证精度的前提下实现 3 倍容量提升的？

5 月 9 日（周六）上午 10 点，#青稞Talk 第 123 期，青稞社区特别邀请到了 SGLang 核心开发者和维护者——的张柏舟，带来题为《DeepSeek V4 模型在 SGLang 中的系统级优化与全栈适配》的深度分享。

届时，张柏舟将亲自为你拆解 SGLang 适配 DeepSeek-V4 的幕后故事，从 ShadowRadix 的设计哲学到多流重叠的调度策略，带你领略大模型推理系统最前沿的工程实践。

分享嘉宾

张柏舟，目前就职于 RadixArk，曾本科毕业于北京大学信息科学技术学院，硕士毕业于加州大学圣迭戈分校计算机学院。

作为 SGLang 框架的核心开发者和维护者之一，他曾主导了 SGLang 的 GB300 部署，DSA 模型优化，确定性推理等工作，并贡献了超过 200 个 commit。他也深度参与了 DeepSeek V4 在 SGLang 框架上的 Day 0 适配工作。

主题提纲

DeepSeek V4 模型在 SGLang 中的系统级优化与全栈适配

1、ShadowRadix：针对 V4 混合稀疏注意力架构的系统级设计
2、各种性能优化技巧：
- 投机采样、HiSparse 多级缓存架构
- 算子优化、序列并行、PD 分离
3、不同硬件（Hopper、Blackwell、GB NVL72）的适配及 Benchmark
4、Miles 框架的 DP/TP/CP/EP/PP/SP 全并行能力 & DAPO 训练稳定性
5、未来展望以及 Roadmap

直播时间

5 月 9 日（周六）10:00 - 11:00