首页
青稞Talk
RL for LRMs：探讨面向推理模型的 RL 最新研究

RL for LRMs：探讨面向推理模型的 RL 最新研究

发布于 2025-10-11
·
326 次阅读
·
·

直播回放

张开颜

清华大学博士生

直播平台

哔哩哔哩

YouTube

相关资源

演示文稿 (PPT)

直播配套幻灯片

下载

10月21日（周二）晚8点，青稞Talk 第80期，清华大学博士生张开颜，将直播分享《RL for LRMs：探讨面向推理模型的 RL 最新研究》。

分享嘉宾

张开颜，清华大学三年级博士生，导师为周伯文教授。研究方向为大语言模型测试时扩展（Test-time Scaling）、强化学习和多智能体协同技术。在NeurIPS,ICLR,ICML,ACL,EMNLP,COLM等国际人工智能顶级会议与期刊上发表论文十余篇。

主题提纲

RL for LRMs：探讨面向推理模型的 RL 最新研究

1、LRM 语境下 RL 建模的基本定义及最新发展
2、不同奖励设计、策略优化和采样策略方案的对比
3、讨论 RL 角色、RL vs. SFT、模型先验、训练方法以及奖励定义
4、未来潜在研究方向上的探讨

直播时间

10月21日20:00 - 21:00

如何观看

Talk 将在青稞社区【视频号：青稞AI、Bilibili：青稞AI】上进行，欢迎交流

上一篇

“知人者智”：以用户为中心的智能体交互与训练

下一篇

MemGen：生成式隐式记忆，Agent Memory 的第三种可能

目录