10月21日(周二)晚8点,青稞Talk 第80期,清华大学博士生张开颜,将直播分享《RL for LRMs:探讨面向推理模型的 RL 最新研究》。
分享嘉宾
张开颜,清华大学三年级博士生,导师为周伯文教授。研究方向为大语言模型测试时扩展(Test-time Scaling)、强化学习和多智能体协同技术。在NeurIPS,ICLR,ICML,ACL,EMNLP,COLM等国际人工智能顶级会议与期刊上发表论文十余篇。
主题提纲
RL for LRMs:探讨面向推理模型的 RL 最新研究
1、LRM 语境下 RL 建模的基本定义及最新发展
2、不同奖励设计、策略优化和采样策略方案的对比
3、讨论 RL 角色、RL vs. SFT、模型先验、训练方法以及奖励定义
4、未来潜在研究方向上的探讨
直播时间
10月21日20:00 - 21:00
如何观看
Talk 将在青稞社区【视频号:青稞AI、Bilibili:青稞AI】上进行,欢迎交流