直播预告｜从 MiniLLM 开始，为什么 OPD 正在成为推理模型时代的“基础设施”？

发布于 2026-05-27
·
226 次阅读
·
·

来源：https://github.com/nick7nlp/Awesome-LLM-On-Policy-Distillation

过去一年里，OPD 几乎成为后训练领域最火热的话题之一。

来源：https://github.com/nick7nlp/Awesome-LLM-On-Policy-Distillation

越来越多工作开始发现：

学生模型并不只是“模仿教师”
On-policy 数据可能比静态 SFT 数据更重要
Distillation 正在与 RL 深度融合
模型可以通过 Self-Play、Self-Refine、Self-Distillation 持续提升能力
后训练的重点，正在从“对齐”走向“进化”

从某种意义上说，大模型正在从“预测器”演化为“学习系统”。 (Hugging Face)

而这背后，也正在出现越来越多值得深入讨论的问题：

为什么 OPD 会突然爆火？
学生模型真的有可能超越教师模型吗？
RL 与 Distillation 的边界正在如何消失？
Self-Improving AI 会成为 AGI 时代的新训练范式吗？
未来的大模型，是否会像 Agent 一样持续在线成长？

5 月 30 日（周六）晚 8 点，#青稞AMA 第 3 期：On-Policy Distillation（OPD）专题，青稞社区邀请到了当前 OPD / RL / LLM 后训练方向最核心的一批青年科学家，一起深入讨论这一轮技术演化背后的真正逻辑。

嘉宾介绍

傅宇千：自动化所深度强化学习团队博士生，导师为赵冬斌研究员与朱圆恒副研究员。研究方向为强化学习、大语言模型与智能体后训练。他也是论文《Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes》的第一作者。

Tianzhu：微软亚洲研究院（MSRA）GenAI 组研究员，主要关注 Foundation Model 以及 Self-improving AI。OPCD、OEL、GAD 一作

顾煜贤：清华大学计算机系五年级博士生，Google Scholar 引用4500+，已发表 20 余篇高水平论文，一作和共同一作论文共 7 篇，均发表在 TH-CPL A 类会议 ACL，EMNLP，ICLR，NeurIPS 等，多次进行口头报告，其中《MiniLLM: Knowledge distillation of large language models》论文两年半被引 970 次，技术被国内外多家公司实用。他曾获清华大学研究生特等奖学金、计算机系钟士模奖学金、国家奖学金、苹果学者奖学金、蚂蚁 In-Tech 奖学金等荣誉。

杨晨旭：中国科学院信息工程研究所六室自然语言处理小组博士生，导师为林政研究员。主要研究兴趣为多模态理解与大模型后训练。

何秉翔：清华大学计算机系二年级博士生，导师为刘知远教授。研究方向为大模型对齐与强化学习，在国际顶级 AI 会议发表多篇论文，Google Scholar 引用量超 1900 次。

黎亚轩：上海科技大学计算机专业大三本科生，目前在清华大学自然语言处理实验室（THUNLP）实习，Rethinking OPD 一作

直播预告｜从 MiniLLM 开始，为什么 OPD 正在成为推理模型时代的“基础设施”？

直播平台

相关资源

嘉宾介绍