8月7日晚8点,青稞Talk 第68期,通义千问研究员,Qwen3、QwQ系列开源模型核心贡献者郑楚杰,将直播分享《GSPO:迈向持续拓展的语言模型强化学习》。
GSPO算法解析:DeepSeek-GRPO重要性权重设计错误?详解Qwen3新强化学习算法GSPO
论文:Group Sequence Policy Optimization
链接:https://www.arxiv.org/pdf/2507.18071
分享嘉宾
郑楚杰,通义千问研究员,Qwen3、QwQ 系列开源模型核心贡献者。2025年博士毕业于清华大学,师从黄民烈教授。曾获2025年WAIC云帆奖·明日之星、ACL 2025 SAC Award。研究方向为大模型推理、对齐与强化学习。在ICLR、ICML、ACL等国际会议发表论文10余篇,谷歌学术引用量5300余次,长期担任ACL、EMNLP、NAACL等会议领域主席。
主题提纲
GSPO:大规模强化学习训练算法,迈向持续拓展的语言模型强化学习
1、对于 GRPO 难以拓展 RL 训练的观察和分析
2、GSPO 算法原理
3、GSPO 在大规模实践中的突出优势
- 训练效率
- MoE RL稳定性
- infra友好性
直播时间
8月7日20:00 - 21:00
参与方式
Talk 将在青稞社区上进行,扫码对暗号:" 0807 ",报名进群!