ROLL：面向 Agentic 场景的生产级大规模强化学习训练框架

发布于 2025-08-13
·
628 次阅读
·
·

8月23日（周六）上午10点，青稞Talk 第74期，淘天集团未来生活实验室算法专家王维埙博士，爱橙科技智能引擎算法平台大模型强化学习框架工程师熊绍潘，将直播分享《ROLL：面向 Agentic 场景的生产级大规模强化学习训练框架》。

代码：https://github.com/alibaba/ROLL

青稞's

王维埙（惟昕）博士，淘天集团未来生活实验室算法专家，研究兴趣为：强化学习、多智能体系统及其在不同领域中的运用，当前主要关注强化学习在大模型优化中的探索。于ICLR、ICML、NeurIPS等会议发表强化学习领域论文数十篇，参与ROLL、Marllib、OpenRLHF等开源项目，并关注强化学习实现中的各项细节。

熊绍潘（亚里）硕士，爱橙科技智能引擎算法平台大模型强化学习框架工程师，研究兴趣为：大模型后训练、强化学习训练框架的工程实现与性能优化。是ROLL的核心开发成员，旨在为大模型提供稳定、易用的强化学习训练基础设施。

主题提纲

ROLL：面向 Agentic 场景的生产级大规模强化学习训练框架

1、LLM RL 训练框架的难点
2、ROLL 框架的主要设计思路与实现
- RLVR 训练流程
- Agentic RL 的设计思路
3、应用实践

直播时间

8月23日10:00 - 11:00

参与方式

Talk 将在青稞社区上进行，扫码对暗号：" 0823 "，报名进群！

ROLL：面向 Agentic 场景的生产级大规模强化学习训练框架

直播平台

相关资源

青稞's

主题提纲

直播时间

参与方式