Canvas – 783.png

7月12日上午10点，青稞Talk 第62期，英伟达公司研究员刁诗哲，将直播分享《ProRL: 延长强化学习训练框架，拓展大语言模型的推理边界》。

分享嘉宾

刁诗哲，英伟达公司研究员，曾以访问学者身份在伊利诺伊大学厄巴纳-香槟分校从事研究，并在字节跳动人工智能实验室与创新工场人工智能研究院实习。研究方向主要包括大模型的预训练、强化学习提升模型推理能力。在人工智能会议（TMLR、ICLR、ICML、NeurIPS、ACL、EMNLP、WWW、ICCV）上发表论文30余篇。

主题提纲

ProRL: 延长强化学习训练框架，拓展大语言模型的推理边界

1、探讨：强化学习是否真的能提升模型的推理能力？
2、延长强化学习训练框架 ProRL
- 多样化可验证奖励任
- 改进算法组合：GRPO + DAPO
- KL 正则化 + 周期性策略重置
3、解构 ProRL 的推理边界

直播时间

7月12日10:00 - 11:00

参与方式

Talk 将在青稞·知识社区上进行，扫码对暗号：" 0712 "，报名进群！