ROLL:面向 Agentic 场景的生产级大规模强化学习训练框架

直播时间:
YouTube

Canvas – 818.png

8月23日(周六)上午10点,青稞Talk 第74期,淘天集团未来生活实验室算法专家王维埙博士,爱橙科技智能引擎算法平台大模型强化学习框架工程师熊绍潘,将直播分享《ROLL:面向 Agentic 场景的生产级大规模强化学习训练框架》。

代码:https://github.com/alibaba/ROLL

青稞's

王维埙(惟昕) 博士,淘天集团未来生活实验室 算法专家,研究兴趣为:强化学习、多智能体系统及其在不同领域中的运用,当前主要关注强化学习在大模型优化中的探索。于ICLR、ICML、NeurIPS等会议发表强化学习领域论文数十篇,参与ROLL、Marllib、OpenRLHF等开源项目,并关注强化学习实现中的各项细节。

熊绍潘(亚里)硕士,爱橙科技智能引擎算法平台 大模型强化学习框架工程师,研究兴趣为:大模型后训练、强化学习训练框架的工程实现与性能优化。是ROLL的核心开发成员,旨在为大模型提供稳定、易用的强化学习训练基础设施。

主题提纲

ROLL:面向 Agentic 场景的生产级大规模强化学习训练框架

1、LLM RL 训练框架的难点
2、ROLL 框架的主要设计思路与实现
- RLVR 训练流程
- Agentic RL 的设计思路
3、应用实践

直播时间

8月23日10:00 - 11:00

参与方式

Talk 将在青稞社区上进行,扫码对暗号:" 0823 ",报名进群!