7月12日上午10点,青稞Talk 第62期,英伟达公司研究员刁诗哲,将直播分享《ProRL: 延长强化学习训练框架,拓展大语言模型的推理边界》。
分享嘉宾
刁诗哲,英伟达公司研究员,曾以访问学者身份在伊利诺伊大学厄巴纳-香槟分校从事研究,并在字节跳动人工智能实验室与创新工场人工智能研究院实习。研究方向主要包括大模型的预训练、强化学习提升模型推理能力。在人工智能会议(TMLR、ICLR、ICML、NeurIPS、ACL、EMNLP、WWW、ICCV)上发表论文30余篇。
主题提纲
ProRL: 延长强化学习训练框架,拓展大语言模型的推理边界
1、探讨:强化学习是否真的能提升模型的推理能力?
2、延长强化学习训练框架 ProRL
- 多样化可验证奖励任
- 改进算法组合:GRPO + DAPO
- KL 正则化 + 周期性策略重置
3、解构 ProRL 的推理边界
直播时间
7月12日10:00 - 11:00
参与方式
Talk 将在青稞·知识社区上进行,扫码对暗号:" 0712 ",报名进群!