分享嘉宾

郑楚杰，通义千问研究员，Qwen3、QwQ 系列开源模型核心贡献者。2025年博士毕业于清华大学，师从黄民烈教授。曾获2025年WAIC云帆奖·明日之星、ACL 2025 SAC Award。研究方向为大模型推理、对齐与强化学习。在ICLR、ICML、ACL等国际会议发表论文10余篇，谷歌学术引用量5300余次，长期担任ACL、EMNLP、NAACL等会议领域主席。

主题提纲

GSPO：大规模强化学习训练算法，迈向持续拓展的语言模型强化学习

1、对于 GRPO 难以拓展 RL 训练的观察和分析
2、GSPO 算法原理
3、GSPO 在大规模实践中的突出优势
- 训练效率
- MoE RL稳定性
- infra友好性

直播时间

8月7日20:00 - 21:00

参与方式

Talk 将在青稞社区上进行，扫码对暗号：" 0807 "，报名进群！

GSPO：大规模强化学习训练算法，迈向持续拓展的语言模型强化学习

直播平台

相关资源

分享嘉宾

主题提纲

直播时间

参与方式