1. 首页
  2. AI AMA
  3. 与 MiniLLM一作、Rethinking OPD 一作等,一起聊聊 OPD

与 MiniLLM一作、Rethinking OPD 一作等,一起聊聊 OPD

  • 发布于 2026-05-27
  • 2 次阅读

来源:https://github.com/nick7nlp/Awesome-LLM-On-Policy-Distillation

过去一年里,OPD 几乎成为后训练领域最火热的话题之一。

来源:https://github.com/nick7nlp/Awesome-LLM-On-Policy-Distillation

越来越多工作开始发现:

  • 学生模型并不只是“模仿教师”
  • On-policy 数据可能比静态 SFT 数据更重要
  • Distillation 正在与 RL 深度融合
  • 模型可以通过 Self-Play、Self-Refine、Self-Distillation 持续提升能力
  • 后训练的重点,正在从“对齐”走向“进化”

从某种意义上说,大模型正在从“预测器”演化为“学习系统”。 (Hugging Face)

而这背后,也正在出现越来越多值得深入讨论的问题:

  • 为什么 OPD 会突然爆火?
  • 学生模型真的有可能超越教师模型吗?
  • RL 与 Distillation 的边界正在如何消失?
  • Self-Improving AI 会成为 AGI 时代的新训练范式吗?
  • 未来的大模型,是否会像 Agent 一样持续在线成长?

5 月 30 日(周六)晚 8 点,#青稞AMA 第 3 期:On-Policy Distillation(OPD) 专题,青稞社区邀请到了当前 OPD / RL / LLM 后训练方向最核心的一批青年科学家,一起深入讨论这一轮技术演化背后的真正逻辑。

嘉宾介绍

傅宇千:自动化所深度强化学习团队博士生,导师为赵冬斌研究员与朱圆恒副研究员。研究方向为强化学习、大语言模型与智能体后训练。他也是论文《Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes》的第一作者。

Tianzhu:微软亚洲研究院(MSRA)GenAI 组研究员,主要关注 Foundation Model 以及 Self-improving AI。OPCD、OEL、GAD 一作

顾煜贤:清华大学计算机系五年级博士生,Google Scholar 引用4500+,已发表 20 余篇高水平论文,一作和共同一作论文共 7 篇,均发表在 TH-CPL A 类会议 ACL,EMNLP,ICLR,NeurIPS 等,多次进行口头报告,其中 《MiniLLM: Knowledge distillation of large language models》 论文两年半被引 970 次,技术被国内外多家公司实用。他曾获清华大学研究生特等奖学金、计算机系钟士模奖学金、国家奖学金、苹果学者奖学金、蚂蚁 In-Tech 奖学金等荣誉。

杨晨旭:中国科学院信息工程研究所六室自然语言处理小组博士生,导师为林政研究员。主要研究兴趣为多模态理解与大模型后训练。

何秉翔:清华大学计算机系二年级博士生,导师为刘知远教授。研究方向为大模型对齐与强化学习,在国际顶级 AI 会议发表多篇论文,Google Scholar 引用量超 1900 次。

黎亚轩:上海科技大学计算机专业大三本科生,目前在清华大学自然语言处理实验室(THUNLP)实习,Rethinking OPD 一作