ZEDA：将 Post-Trained MoE 迁移为高效动态 MoE

发布于 2026-06-05
3 次阅读

讲师：吕兴泰

清华大学博士生

直播平台

视频号

相关资源

演示文稿 (PPT)

直播配套幻灯片

暂未提供

MoE 通过稀疏激活在扩大参数容量的同时控制计算量；Dynamic MoE 可以动态调整专家激活数量，让简单 token 使用更少计算，从而进一步提升推理效率。

6 月 9 日（周二）晚 8 点，青稞 Talk 第 130 期，清华大学博士生吕兴泰，将直播分享《ZEDA：将 Post-Trained MoE 迁移为高效动态 MoE》。

本次分享聚焦把 post-trained MoE 迁移为更高效的 DynamicMoE，讨论如何在不破坏原模型能力的情况下，将已完成后训练流程的静态 MoE 转换为动态 MoE，从而减少推理部署开销。

我们提出 ZEDA，通过注入 zero experts、两阶段 self-distillation 以及 group-levelbalancing，使模型能够在 token level 上动态跳过部分专家。在 Qwen3-30B-A3B 和 GLM-4.7-Flash 上，ZEDA 减少超过一半专家计算，并带来约 1.2× 实际推理加速，同时保持较小性能损失。

分享嘉宾

吕兴泰，清华大学二年级博士生，导师为周伯文教授。研究方向为大语言模型架构优化、强化学习和高效训练技术。在ACL，EMNLP，NeurIPS，ICML等国际人工智能顶级会议上发表论文十余篇。

主题提纲

ZEDA：将 Post-Trained MoE 迁移为高效动态 MoE

1、MoE 与 Dynamic MoE 概述
2、ZEDA方法：Zero ExpertInjection 与 Self-Distillation
3、Token-level 计算分配机制分析
4、未来研究讨论
5、AMA （Ask Me Anything）环节

直播时间

6 月 9 日（周二）20:00 - 21:00