1. 首页
  2. 青稞Talk
  3. ProRL: 延长强化学习训练框架,拓展大语言模型的推理边界

ProRL: 延长强化学习训练框架,拓展大语言模型的推理边界

  • 发布于 2025-07-03
  • 122 次阅读

直播平台

哔哩哔哩

YouTube

PC端

相关资源

演示文稿 (PPT)

直播配套幻灯片

下载

Canvas – 783.png

7月12日上午10点,青稞Talk 第62期,英伟达公司研究员刁诗哲,将直播分享《ProRL: 延长强化学习训练框架,拓展大语言模型的推理边界》。

分享嘉宾

刁诗哲,英伟达公司研究员,曾以访问学者身份在伊利诺伊大学厄巴纳-香槟分校从事研究,并在字节跳动人工智能实验室与创新工场人工智能研究院实习。研究方向主要包括大模型的预训练、强化学习提升模型推理能力。在人工智能会议(TMLR、ICLR、ICML、NeurIPS、ACL、EMNLP、WWW、ICCV)上发表论文30余篇。

主题提纲

ProRL: 延长强化学习训练框架,拓展大语言模型的推理边界

1、探讨:强化学习是否真的能提升模型的推理能力?
2、延长强化学习训练框架 ProRL
- 多样化可验证奖励任
- 改进算法组合:GRPO + DAPO
- KL 正则化 + 周期性策略重置
3、解构 ProRL 的推理边界

直播时间

7月12日10:00 - 11:00

参与方式

Talk 将在青稞·知识社区上进行,扫码对暗号:" 0712 ",报名进群!