8月23日(周六)上午10点,青稞Talk 第74期,淘天集团未来生活实验室算法专家王维埙博士,爱橙科技智能引擎算法平台大模型强化学习框架工程师熊绍潘,将直播分享《ROLL:面向 Agentic 场景的生产级大规模强化学习训练框架》。
代码:https://github.com/alibaba/ROLL
青稞's
王维埙(惟昕) 博士,淘天集团未来生活实验室 算法专家,研究兴趣为:强化学习、多智能体系统及其在不同领域中的运用,当前主要关注强化学习在大模型优化中的探索。于ICLR、ICML、NeurIPS等会议发表强化学习领域论文数十篇,参与ROLL、Marllib、OpenRLHF等开源项目,并关注强化学习实现中的各项细节。
熊绍潘(亚里)硕士,爱橙科技智能引擎算法平台 大模型强化学习框架工程师,研究兴趣为:大模型后训练、强化学习训练框架的工程实现与性能优化。是ROLL的核心开发成员,旨在为大模型提供稳定、易用的强化学习训练基础设施。
主题提纲
ROLL:面向 Agentic 场景的生产级大规模强化学习训练框架
1、LLM RL 训练框架的难点
2、ROLL 框架的主要设计思路与实现
- RLVR 训练流程
- Agentic RL 的设计思路
3、应用实践
直播时间
8月23日10:00 - 11:00
参与方式
Talk 将在青稞社区上进行,扫码对暗号:" 0823 ",报名进群!