MoE 通过稀疏激活在扩大参数容量的同时控制计算量;Dynamic MoE 可以动态调整专家激活数量,让简单 token 使用更少计算,从而进一步提升推理效率。
6 月 9 日(周二)晚 8 点,青稞 Talk 第 130 期,清华大学博士生吕兴泰,将直播分享《ZEDA:将 Post-Trained MoE 迁移为高效动态 MoE》。
本次分享聚焦把 post-trained MoE 迁移为更高效的 DynamicMoE,讨论如何在不破坏原模型能力的情况下,将已完成后训练流程的静态 MoE 转换为动态 MoE,从而减少推理部署开销。

我们提出 ZEDA,通过注入 zero experts、两阶段 self-distillation 以及 group-levelbalancing,使模型能够在 token level 上动态跳过部分专家。在 Qwen3-30B-A3B 和 GLM-4.7-Flash 上,ZEDA 减少超过一半专家计算,并带来约 1.2× 实际推理加速,同时保持较小性能损失。

清华最新论文!动态 MoE 迁移算法 ZEDA:让 MoE 自己学会"摸鱼",推理提速 20%
分享嘉宾
吕兴泰,清华大学二年级博士生,导师为周伯文教授。研究方向为大语言模型架构优化、强化学习和高效训练技术。在ACL,EMNLP,NeurIPS,ICML等国际人工智能顶级会议上发表论文十余篇。
主题提纲
ZEDA:将 Post-Trained MoE 迁移为高效动态 MoE
1、MoE 与 Dynamic MoE 概述
2、ZEDA方法:Zero ExpertInjection 与 Self-Distillation
3、Token-level 计算分配机制分析
4、未来研究讨论
5、AMA (Ask Me Anything)环节
直播时间
6 月 9 日(周二)20:00 - 21:00