
过去一年里,OPD 几乎成为后训练领域最火热的话题之一。

越来越多工作开始发现:
- 学生模型并不只是“模仿教师”
- On-policy 数据可能比静态 SFT 数据更重要
- Distillation 正在与 RL 深度融合
- 模型可以通过 Self-Play、Self-Refine、Self-Distillation 持续提升能力
- 后训练的重点,正在从“对齐”走向“进化”
从某种意义上说,大模型正在从“预测器”演化为“学习系统”。 (Hugging Face)
而这背后,也正在出现越来越多值得深入讨论的问题:
- 为什么 OPD 会突然爆火?
- 学生模型真的有可能超越教师模型吗?
- RL 与 Distillation 的边界正在如何消失?
- Self-Improving AI 会成为 AGI 时代的新训练范式吗?
- 未来的大模型,是否会像 Agent 一样持续在线成长?
5 月 30 日(周六)晚 8 点,#青稞AMA 第 3 期:On-Policy Distillation(OPD) 专题,青稞社区邀请到了当前 OPD / RL / LLM 后训练方向最核心的一批青年科学家,一起深入讨论这一轮技术演化背后的真正逻辑。
嘉宾介绍
傅宇千:自动化所深度强化学习团队博士生,导师为赵冬斌研究员与朱圆恒副研究员。研究方向为强化学习、大语言模型与智能体后训练。他也是论文《Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes》的第一作者。
Tianzhu:微软亚洲研究院(MSRA)GenAI 组研究员,主要关注 Foundation Model 以及 Self-improving AI。OPCD、OEL、GAD 一作
顾煜贤:清华大学计算机系五年级博士生,Google Scholar 引用4500+,已发表 20 余篇高水平论文,一作和共同一作论文共 7 篇,均发表在 TH-CPL A 类会议 ACL,EMNLP,ICLR,NeurIPS 等,多次进行口头报告,其中 《MiniLLM: Knowledge distillation of large language models》 论文两年半被引 970 次,技术被国内外多家公司实用。他曾获清华大学研究生特等奖学金、计算机系钟士模奖学金、国家奖学金、苹果学者奖学金、蚂蚁 In-Tech 奖学金等荣誉。
杨晨旭:中国科学院信息工程研究所六室自然语言处理小组博士生,导师为林政研究员。主要研究兴趣为多模态理解与大模型后训练。
何秉翔:清华大学计算机系二年级博士生,导师为刘知远教授。研究方向为大模型对齐与强化学习,在国际顶级 AI 会议发表多篇论文,Google Scholar 引用量超 1900 次。
黎亚轩:上海科技大学计算机专业大三本科生,目前在清华大学自然语言处理实验室(THUNLP)实习,Rethinking OPD 一作