FlashRL:探讨现代 RL 框架中推理与训练的错位问题及解决方案

直播时间:

Canvas – 819.png

8月30日(周六)上午11点,青稞Talk 第75期,加州大学圣地亚哥分校(UCSD)博士生姚峰,将直播分享《FlashRL:探讨现代 RL 框架中推理与训练的错位问题及解决方案》。

分享嘉宾

姚峰,加州大学圣地亚哥分校(UCSD)二年级博士生,导师是商静波教授,曾在微软研究院Deep Learning Group & GenAI组实习,最近的研究主要聚焦于MoE以及RL相关的主题。

主题提纲

1、现代 RL 训练框架中的 Rollout-Training Mismatch 潜在问题
2、FlashRL:开源且可用的 RL 实现方案
- 截断重要性采样 (TIS) 缓解 Mismatch 带来的 Off-Policy 影响
- 利用 TIS 实现 8Bit Rollout 加速并保持 16Bit 效果
3、未来研究方向的一些探讨

直播时间

8月30日11:00 - 12:00

参与方式

Talk 将在青稞社区上进行,扫码对暗号:" 0830 ",报名进群!