slime:专为 RL Scaling 设计的大规模 RL 训练框架及实践

直播时间:
YouTube

Canvas – 805.png

8月2日(周六)上午10点,青稞Talk 第68期,智谱 AI RL Infra 工程师、slime 开源项目作者朱子霖,将直播分享《slime:专为 RL Scaling 设计的大规模 RL 训练框架及实践》。

https://github.com/THUDM/slime

关于slime的分析可以看以下两篇文章:

分享嘉宾

朱子霖,智谱 AI RL Infra 工程师,slime、ring_flash_attention 等开源项目作者,SGLang、OpenRLHF collaborator,长期参与训练框架优化,目前专注于大规模 RL 训练中的系统优化需求。

主题提纲

slime:专为 RL Scaling 设计的大规模 RL 训练框架及实践

1、当我们在设计训练框架时,我们在设计什么?
2、RL 框架的相同与不同
3、slime 框架设计的主要思路与结构
4、下一步 RL 框架的一些潜在优化点

直播时间

8月2日10:00 - 11:00

参与方式

Talk 将在青稞社区上进行,扫码对暗号:" 0802 ",报名进群!