ProRL: 延长强化学习训练框架,拓展大语言模型的推理边界

📅 直播时间:2025-07-12 10:00 🎥 观看直播

Canvas – 783.png

7月12日上午10点,青稞Talk 第62期,英伟达公司研究员刁诗哲,将直播分享《ProRL: 延长强化学习训练框架,拓展大语言模型的推理边界》。

分享嘉宾

刁诗哲,英伟达公司研究员,曾以访问学者身份在伊利诺伊大学厄巴纳-香槟分校从事研究,并在字节跳动人工智能实验室与创新工场人工智能研究院实习。研究方向主要包括大模型的预训练、强化学习提升模型推理能力。在人工智能会议(TMLR、ICLR、ICML、NeurIPS、ACL、EMNLP、WWW、ICCV)上发表论文30余篇。

主题提纲

ProRL: 延长强化学习训练框架,拓展大语言模型的推理边界

1、探讨:强化学习是否真的能提升模型的推理能力?
2、延长强化学习训练框架 ProRL
- 多样化可验证奖励任
- 改进算法组合:GRPO + DAPO
- KL 正则化 + 周期性策略重置
3、解构 ProRL 的推理边界

直播时间

7月12日10:00 - 11:00

参与方式

Talk 将在青稞·知识社区上进行,扫码对暗号:" 0712 ",报名进群!