1. 首页
  2. 精选文章
  3. 实录精选|On-Policy Distillation专题:与RL 的本质区别、全词表监督、跨模型/黑盒蒸馏、Self-OPD...

实录精选|On-Policy Distillation专题:与RL 的本质区别、全词表监督、跨模型/黑盒蒸馏、Self-OPD...

  • 发布于 2026-06-17
  • ·
  • 9 次阅读
  • ·
  • ·

过去一年,OPD 强势改写大模型后训练格局,消融蒸馏与强化学习的技术壁垒,驱动模型从静态对齐迈向自主进化,一众关乎 AI 自我迭代的前沿疑问应运而生。

Canvas – 926-Qxgg.png

在 5 月 30 日,#青稞AMA 第 3 期:On-Policy Distillation(OPD) 专题中,青稞社区邀请到了当前 OPD 方向最核心的一批青年科学家,一起深度解析了 OPD 技术的火爆成因,探讨了其作为一种高效率后训练手段在模型合板、持续学习及长文本任务中的核心优势。

1280X1280-flnq.PNG

同时还详细对比了 OPD 与强化学习(RL)在优化目标与泛化能力上的本质区别,并对全词表监督、跨模型蒸馏以及黑盒蒸馏等工程痛点提出了前沿见解。

此外,讨论还展望了 Self-OPD 与上下文蒸馏在实现模型自我演进中的潜力,为理解大模型蒸馏技术的演进路径提供了重要参考。

参与嘉宾有:

  • 傅宇千(主持人),中科院自动化所深度强化学习团队博士生
  • Tianzhu,MSRA GenAI 组 researcher
  • 顾煜贤,清华大学博士生 & MiniLLM 一作
  • 杨晨旭,信息工程研究所六室自然语言处理小组博士生
  • 何秉翔,清华 THUNLP 博士生 & Rethinking OPD 共一
  • 黎亚轩,上科大本科生 & Rethinking OPD 共一

直播回放

On-Policy Distillation 专题视频回放已在【青稞AI】视频号上线,欢迎观看!

哔哩哔哩:https://www.bilibili.com/video/BV1qKVd6XEA3?t=594.2

浅识一下

傅宇千 (主持人):

大家好!我是傅宇千。首先感谢青稞社区的邀请,很荣幸作为主持人组织这场 OPD 专题讨论,很高兴与Tianzhu、煜贤、晨旭、秉翔、亚轩共同探讨 OPD。

我目前是自动化所四年级博士生,师从赵东斌研究员与朱圆恒副研究员,研究方向为强化学习与大模型后训练,近期我们对 OPD 的理论与实践展开分析,形成《Revisiting OPD》一文并开源代码。

正式讨论前,先请各位嘉宾分别做自我介绍,内容可包含当前研究方向、关注 OPD 的原因、代表性研究工作、研究中遇到的问题,以及核心认知转折点等。

Tianzhu:

大家好,我是Tianzhu,现任微软亚研院 General AI 组研究员。此前主要研究语言模型预训练,相关工作聚焦 Attention 机制。

大概去年开始关注一些 on-policy learning 的方向,当然其实去年开始做的时候,是因为我们组对于 distillation 有研究传统,之前最早就是煜贤学长 MiniLLM,我们这边对蒸馏的关注一直比较多,尤其是发现 on-policy 对于蒸馏也好、持续学习也好,都有不可或缺的重要作用。

所以去年看了一些 black-box on-policy distillation 的相关工作,今年则做了 on-policy context distillation 相关的工作,整体是围绕 OPD 这个课题。

其实个人体验的话,on-policy learning 这件事非常重要,我觉得包括大家后面说的 self-improve 以及 continual learning 这些所有 topic,可能都离不开 on-policy learning 以及它背后的一些 insight。

顾煜贤:

大家好,我是顾煜贤,清华大学五年级博士生,即将毕业。我的研究方向基本覆盖语言模型全链条,包括数据、后训练、OPD、模型架构等,近期重点关注模型架构。

我关注 OPD 的时间较早,2022 年冬天 ChatGPT 刚推出,大家对强化学习充满兴趣,导师建议我用强化学习做蒸馏,这是 OPD 最早的研究思路,后续逐步演化出 Reverse KL 形式,最终形成 MiniLLM。

MiniLLM 是 2023 年 6 月发布,是理论层面第一篇 OPD 论文,比谷歌同类工作早 9 天。当时我核心认知是 on-policy 的重要性,但那时候该观点未被广泛认可,行业普遍认为强化学习成本高,更倾向于 DPO 而非强化学习,后续大家才逐步意识到 on-policy 的价值。

当时也曾尝试 black-box 蒸馏,试图获取 GPT 的 Logits 但未成功,后来这个 Tianzhu 给实现了,非常厉害。

何秉翔:

大家好,我是何秉翔,清华大学计算机系二年级直博生,在自然语言处理实验室 THUNLP 读博,师从刘知远教授,主要研究方向为大模型对齐与强化学习。

2023 年我从数据层面开展研究,参与构建偏好对齐数据集,后续探索指令微调数据、偏好对齐数据,分析后训练阶段数据质量的影响因素。去年我主要研究强化学习,从有监督、无监督强化学习两个维度,验证极简强化学习的潜力,刻画伪信号的可扩展性边界,同时参与构建推理模型强化学习综述。

我关注 OPD 始于去年下半年,看到 Thinking Machine Lab 的博客,其中提到经过 RL 的模型可通过 OPD 快速恢复教师模型性能,当时我刚完成 JustRL 这个工作,将一个模型通过简单 RL recipe 的方式稳定训练了 4000 多步,希望借助 OPD 恢复模型性能,由此开启 OPD 研究,并开展 OPD 性质分析相关工作,先简要介绍这些。

黎亚轩:

大家好,我是黎亚轩,上海科技大学大三计算机专业本科生,目前在清华 NLP 实验室实习,和秉翔师兄合作,研究方向为大模型后训练与对齐,是《Rethinking OPD》一作,该工作与秉翔合作完成。很荣幸受青稞社区邀请,与各位优秀的老师、学长探讨 OPD,我资历尚浅,希望多向大家学习。

我 10 月从秉翔师兄处了解到 OPD,Thinking Machines Lab 发布的博客展示了 OPD 相较于 RL 的高效性、相较于 SFT 无遗忘的优势,效果极具吸引力,我们尝试复现并开展研究,过程中遇到诸多训练失败的情况,经大量分析与实验,最终形成《Rethinking OPD》工作,以上是我的介绍。

杨晨旭:

大家好,我是杨晨旭,信息工程研究所博士生,师从林政研究员,主要研究大模型后训练、强化学习,聚焦多模态大语言模型与视频理解方向。

我接触自蒸馏研究的时间较晚,2023 年二三月份自蒸馏相关研究集中涌现,我才开始跟进,觉得这类研究很有价值。研究过程中遇到诸多问题,自蒸馏生效的条件较为苛刻,不同领域数据适配的方法不同,很有意思。

此前资源受限条件,在研究推理相关工作,发表两篇相关论文,去年下半年至今年年初转向大模型后训练研究,还有诸多问题需要向各位请教。

OPD 爆火的真相

傅宇千 (主持人):

谢谢各位同学的自我介绍,接下来进入圆桌讨论环节。

第一个问题,煜贤老师提到 OPD 出现时间较早,无论是MiniLLM,还是谷歌 OPD 论文,其实在 2023 年 6 月就有首次发布。为何时隔三年,OPD 再次火爆,相关论文与下游应用快速兴起,各位老师有何看法?

顾煜贤:

我也很惊讶 OPD 突然爆火了。对我而言,Thinking Machines Lab 这一波推广与大规模实践,对 OPD 这个话题起到了极大的推动作用。

时代背景是,现在后训练已经成为主流方向。2023 年时,大家对后训练的概念还不够清晰,也没有成熟的后训练流程,基本都在做 SFT,即便做后训练也主要是 DPO,很少有人做大规模的 RL。

当时的 RL 基本就是 RLHF,只做简单对齐。我认为 OPD 火起来主要有两个原因:一是时代背景,后训练本身火了;

二是 Thinking Machines Lab 做了一系列关键推动。我自己理解,他们是想做类似 continual learning 的方向。刚才Tianzhu也提到,OPD 及其衍生方向和 continual learning 有非常强的关联,我相信后面Tianzhu会展开讲。

第二点是业界普遍认为 Thinking Machines Lab 其实把 OpenAI 内部的一些技术开源出来了,包括 LoRA 的训练 API 等相关组件。其实很早就有说法,OpenAI 也在使用类似 Reverse KL 的方式做蒸馏,也可能正是因为他们开源,进一步带动了 OPD 的普及。

傅宇千 (主持人):

确实我也有听说,Tianzhu对此有何看法?

Tianzhu:

我觉得 Thinking Machines Lab 的做法非常巧妙。他们选择从 RL 的视角、尤其是从 dense reward 的角度去解读 OPD。在我个人看来,OPD 和 RL 在本质上其实差异非常大,无论是优化目标还是学习范式,都存在根本性的区别。

去年多篇探讨 RLVR 局限性的论文指出,传统强化学习依靠 sparse reward,不仅难以优化 Top-K 指标,训练效率也偏低。而 TML 巧妙地从 dense reward 的视角解读 OPD,将其与 RL 领域的问题结合,恰好击中了学界的痛点,让大家看到解决 RL 稀疏奖励瓶颈的全新思路。

所以我认为这其中有运气成分,再叠加行业发展趋势,刚好契合了当下热门的研究方向。OPD 走红存在一定偶然性,TML 最初大概率也没料到它会热度暴涨,不过他们在撰写博客时明显经过考量,特意关联了 continual learning 等热门课题。

傅宇千 (主持人):

确实如此。我认为 OPD 具备的 on-policy 特性,是它能够走红的重要原因。

另一方面,当前大模型发展也提出了新需求:一是模型需要具备持续学习能力,二是业界都在追求通用大模型。想要融合多领域能力,传统 SFT 的效果往往不及 on-policy 方法。

晨旭、秉翔、亚轩,有没有补充看法?

杨晨旭:

我觉得宇千、煜贤、Tianzhu几位说得都很有道理。

在我看来,OPD 能够走红,也和当下强化学习基础设施的发展密切相关。早期缺少相关工具与 Swift 这类强化学习框架的支撑,大家自行实现 on-policy 方法难度很高。如今有了完善的基建支持,相关的研究和实践也变得更加丰富。

结合宇千刚才提到的持续学习,在多领域场景中落地 OPD,也离不开 MiMo 团队提出的 MOPD 方案。该方案开源之后,很多企业团队都开始采用这套更优的方式做模型能力融合。可以说 OPD 在学术界和工业界都具备很好的落地价值,这也进一步推动了它的爆火。

何秉翔:

在我看来,OPD 其实并不是全新的技术。煜贤学长早年开展的 MiniLLM,在算法层面就已经具备了清晰的雏形。在业界实践中,通义千问去年 5 月发布的技术报告里,也简要提及了 on-policy distillation,能看出业界很早就已经在落地这套方案。

其次,OPD 如今走红也恰逢合适的时机。一方面,当下开源模型数量众多,整体能力也逐步追上闭源模型。依托开源模型可以获取 logits,不再局限于黑盒蒸馏,为蒸馏相关研究提供了良好条件。

另一方面,OPD 本身具备很高的发展潜力。正如Tianzhu刚才所说,它依托稠密奖励的思路,也契合了强化学习领域的研究趋势。2024 年下半年 OpenAI 推出 o1 之后,不少团队尝试复现其技术路线,涌现出大量过程奖励模型相关工作。

大家普遍认为超长思维链依赖过程奖励训练,但这条路线逐渐暴露出问题,模型容易出现投机行为,同时相关数据也难以采集。

到 2025 年年初,DeepSeek R1 证明仅依靠简单基于规则的结果奖励,就能让强化学习取得不错的效果,研究方向也随之转向结果奖励。

经过上半年的探索,结合 RLVR 局限性等相关研究,学界开始重新思考,无监督奖励、伪奖励是否也能用于模型训练。在这样的背景下,dense reward 这条技术路线出来,重新把大家的注意力吸引过来。

最后,正如之前几位提到的,如今相关技术基础设施已经成熟,模型能力也大幅提升,不少领域的表现甚至超越人类水平。行业也产生了新的需求,希望模型能够实现自我迭代,从零散的环境信号、竞赛数据与历史经验中学习反馈,而 OPD 恰好能够匹配这类需求。

多重因素叠加,也就让 OPD 获得了如今这么高的关注度。

傅宇千 (主持人):

谢谢各位的讨论。

OPD 如何超越教师模型?

傅宇千 (主持人):

既然谈到 OPD 火爆的原因,接下来探讨核心问题:OPD 本质是蒸馏,其性能上限受教师模型限制,难以超越教师模型,各位认为如何实现 OPD 超越教师模型的能力?

我个人认为 OPD 的价值,并不体现在单一教师模型的性能超越上,而是在多教师 OPD 场景中,不同教师模型之间能够形成能力互补。这个思路也来源于过往强化学习领域做多任务训练的相关经验,在开展多任务强化学习训练时,将多个不同任务联合训练,能够观察到明显的领域泛化效果。因此我认为,借助多教师 OPD 的方式,完全有机会让模型能力超越单个教师模型。

大家是怎么考虑的?

黎亚轩:

我们此前关注过 EXOPD 相关研究,不少工作在基准测试中已经实现学生模型超越教师模型,其中一篇跟进过的 EXOPD 论文让我印象很深。

想要让学生模型超越教师模型,关键在于 OPD 要给出合理的优化方向。打个比方,如果教师模型传递给学生的优化方向正确,但更新幅度不足,我们就可以人为放大这个幅度,进而提升模型效果,这是我比较浅显的理解。

目前对于 OPD 为何能让学生模型超越教师模型,业界还没有形成清晰、统一的理论解释,相关论文也大多只是提出一些猜想。

傅宇千 (主持人):

我也看过 EXOPD 这项工作。它主要在模型差值上做了优化,借助差值外推或是不同模型参数外推的方式,让模型能力超越原本的教师模型。目前我也还没能理清背后的原理,但确实观测到了这样的现象。

Tianzhu:

结合实验经验来看,如果训练全程固定教师模型,最终学生模型收敛后,能力会和教师模型趋于一致。即便采用离线策略训练,最终的收敛效果也大致相近。

但训练过程中会出现特殊状态:例如初始阶段的学生模型,会在部分维度优于教师模型,同时在另一些维度存在短板,在线策略学习的过程中也会呈现出这样的特点。

学生可能稍微保留自身优势,同时学到教师模型的相关能力。但在我看来,这种效果并没有稳定保障,大多是实验调参时碰巧达到相应状态,不过这类现象确实能够观测到。

再来说 self distillation,还有 context distill 这类方向,它的实现思路更接近模型自我迭代。模型可以依托各类环境带来的 context,比如 coding environment、人类 feedback 等内容进行学习。

此时教师模型掌握着专属信息或是人类反馈上下文,学生模型以此为学习目标进行训练,训练完成的新学生模型又会成为新的教师模型,形成自我提升的过程。

这种模式下不存在固定的教师模型,所以我认为它在一定程度上,已经超出了大家最初所定义的OPD范畴。

傅宇千 (主持人):

对,感觉还是需要一些外部的信息,无论是环境的反馈还是人类的一些 feedback。关于Tianzhu刚刚提到的 self distillation,以及它和 RL 的结合,我们后续也会展开讨论。

杨晨旭:

我也这么认为,单纯依靠最初版本的 OPD,想要超越 teacher 其实并不现实。后续业界探索出了不少算法,其中自蒸馏的思路很有价值,引入额外信息确实能让模型习得新能力。

将 RL 与 OPD 相结合,也能进一步拓展模型的能力边界。实际训练过程中,把 RL 和 OPD 交替串联使用,最终效果会优于单独使用 RL。RL 有时会让模型的探索空间收窄,搭配 OPD 则可以重新拓宽探索范围。

多教师方案也是一个具备研究潜力的方向。我们前段时间发表了一篇名为 COPD 的论文,主要研究学生与教师共同进化。处于不同领域的师生模型可以互相指导,配合合理的 OPD 训练节奏,能够有效提升模型在全领域的综合平均性能。

何秉翔:

我认为不管是 OPD,还是更广义的知识蒸馏方法,其终极目标都是让学生模型逼近甚至超越 teacher。

但目前来看,无论是 SFT 还是 OPD,在多数通用场景下都很难做到这一点,甚至连追平 teacher 五成的性能都不容易。其中影响因素繁多,也难以量化,模型自身能力、监督密度、数据质量等都会产生作用。

目前在 OPD 的相关实验中,若将学生模型经过 RL 迭代后的版本作为 teacher,效果基本可以实现百分之百还原。而在部分领域的 multi-teacher OPD 场景下,不同能力之间基本不会出现冲突,部分领域还能形成相互增益,甚至出现小幅超越 teacher 的情况。

这也是知识蒸馏领域大家最关注的方向。至于性能差距究竟有多大、如何进一步逼近性能上限,还有大量问题有待探索。同时目前也无法确定,单纯对齐模型输出端的 logits 分布,是否属于高效的学习信号。毕竟 OPD 本质上只是依托 log p difference,也就是概率差值来完成学习。

顾煜贤:

我分享一下之前实验中的观察。我曾用模型 A 自身作为 teacher,再对模型 A 做蒸馏,最终指标实现了上涨,这种情况显然已经超越了原有的 teacher。

由此我认为,on-policy 本身就能够带来性能提升,具体效果取决于实验设定。当时使用的模型 A 并未经过 RL 训练,也没有执行过任何 on-policy 相关操作,分布还未收敛到局部最优,只是完成了 SFT,整体分布仍有优化空间。在这种前提下,经过 on-policy 训练的学生模型,性能大概率会优于未做 on-policy 处理的 teacher。

我认为这也正是在部分实验设定、部分基准测试中,能观测到学生模型表现优于 teacher 的原因。

傅宇千 (主持人):

针对煜贤刚才提到的,模型自蒸馏实现指标上涨的现象,我猜想这或许和无奖励强化学习的原理相近?整个过程并没有引入真实标注数据,模型只是不断提升自身输出的置信度,最终就带来了性能提升。

顾煜贤:

对,相当于你原来 Pass@k 它其实都是不变的,只不过你通过 on-policy 把 Pass@k 变成 Pass@1 了。

全词表 vs Top-K 怎么选?

傅宇千 (主持人):

刚刚讨论这个问题时,秉翔提到,现阶段的 OPD 向 学生模型传递的信息量偏少,我们一般基于 logits 做估计。针对这一点,目前也出现了新方法与实践。

近期 DeepSeek V4 采用了全词表的 OPD 方案。我们查阅它的 technical report 可以发现,其中关于 OPD 的内容,主要介绍了底层架构上的多项大幅优化。

这里就产生一个顾虑:普通研究者开展全词表相关实验,对硬件资源要求很高。是否存在替代方案,能够逼近全词表的效果?比如采用 Top-k 或是 Top-p 这类选取方式。

大家是否做过类似尝试。

何秉翔:

我们目前的研究范围相对有限,仅在数学和代码场景下对比了 sample token 与 Top-k 的差异。针对 Top-k,我们也开展了相应的消融实验,k 值最高设置到 128。

这套方案在实现上还有不少细节,目前可能暂时没法讲解得十分透彻。比如最终优化目标,究竟采用 teacher 的 log p 加权,还是 student 的 log p 加权,不同选择会让优化方向出现偏差。

总结来看,在数学任务中我们发现,sample token 能达到接近 Top-128 的效果。同时在我们测试的 16k 序列长度下,调整 Top-k 的 k 值,整体效果并没有明显变化。

对此我们也有一些思考:使用 Top-k 乃至全词表做蒸馏,正如 DeepSeek V4 中提到的,能够覆盖更全面、学习信号也更完整。

但是从某种程度上,选取 Top-k 词表中排位靠后的 token 进行监督,是不是也偏离了 OPD 的本意?

对大量不同 token 做监督时,teacher 本身对此也会存在判断不确定的情况,这类位置输出的信号会带有噪声,这就形成了 trade off。

另外,我们当前实现的 OPD 优化目标,其 advantage 与 log p 加权值大致成正比。词表中概率偏低的 token,对应的 advantage 本身就偏弱。

从实验结果来看,二者差距可达一个甚至两个数量级,因此这部分 token 并不会左右整体的优化过程。

黎亚轩:

那我接着秉翔的内容继续说。我们在 rethinking OPD 中做了消融实验,发现全词表方案并没有带来明显提升。

我也很好奇 DeepSeek 为何选择采用全词表。标准 KL 散度会以 student 的概率做加权,再结合 log p 的对数差值进行计算。当 token 概率 P 极低时,对应数值会变得很小,advantage 趋近于零,几乎无法产生有效梯度更新。基于这一点,我认为 Top-k 其实可以满足使用需求。

另外在我看来,Top-p 还有一处实现难点:Top-k 的张量维度是固定的,而 Top-p 选出的候选数量不固定,有时是 10 个、有时是 20 个,动态维度会增加工程实现难度。

我们还观察到,当 k 值设置得过小时,容易引发训练不稳定。我猜测在 agentic 这类长程任务中,训练不稳定带来的负面影响会被进一步放大。DeepSeek 选择全词表,大概率是为了保障训练稳定性,再依托自身成熟的 infra,顺利解决了全词表带来的算力与存储问题。

傅宇千 (主持人):

我们在 revisiting opd 的实验中也发现,教师模型对 student 采样得到的轨迹存在分布层面的约束。在 agent 这类长程任务,或是容易和教师模型产生分布偏移的场景中,训练不稳定的问题会进一步加剧。

结合相关实验来看,在这类不稳定场景下,适当调高 Top-k 的 k 值,能有效改善训练状态。不过当 k 值提升到一定水平后,继续调大带来的收益就会变得十分有限。

顾煜贤:

关于全词表,我之前推导过它的使用原因。全词表在优化目标上的期望是严格等同于 TML 公式的,这一点可以证明,并且它的方差严格更小,所以使用全词表是一个不会有损失的选择。

至于具体实现方式,DeepSeek 他们直接存储的是 hidden state,hidden state 相比于把整个词表都计算出来,存储量肯定更小,大概是几千这样的量级。他们还做了 Offload,具体就看需求了。

根据我自己的实验来看,全词表的效果要比单点好很多,不论是收敛速度还是最终性能。我认为还有一个原因,单点相当于只能给一个 token 传递梯度,而全词表相当于每个 token 对应的 head vector 都会参与最终目标的计算,至少每个 head vector 都被训练到了,这也会带来一定的帮助。

Tianzhu:

实际上 TML 采用的是 K2 loss的形式,K2 loss求导之后得到的 advantage 和blog是一致的,梯度上是对reverse KL的无偏估计。全词表方案的方差更低,所以理论上效果不会变差。如果表现不佳,大概率是实现问题,比如尾部 token 的数值精度不足。

从研究角度出发,可以考虑使用 JSD,它融合了 forward 与 reverse 两种形式,具备均衡性。部分任务中 reverse 形式未必能带来增益,比如 student 模型本身能力较弱的场景。另外 JSD 是有界的,整体训练过程会更加稳定。因此做研究时,JSD 会是更优选择,也可以将 JSD 搭配 Top-k 使用。

Top-k 存在固有缺陷是,训练步数增多后容易出现崩溃,因为它在前向计算和梯度层面都存在偏差。综合来看,如果配套的工业级 infra 足够完善,全词表方案会更合理,例如采用全词表 reverse KL 或是全词表 JSD。

傅宇千 (主持人):

确实就相当于全词表的话在效果上是有保障,但是就看性能与资源的权衡了。

Token-level 与 Sequence-level 损失差异

傅宇千 (主持人):

我们之前讨论的是单个 token 选用全词表还是单点估计,除此之外,Thinking Machine Lab 也提到其 loss 形式为折扣因子置零的实现形式。

loss 分为 token-level 与 sequence-level 两类,本质问题是当前 token 与对应梯度是否会影响后续 reward 和轨迹,以及是否需要考量该影响。

针对这部分内容,大家可以发表看法。

顾煜贤:

我试过将折扣因子设成不为零,明确来说没有效果。我之前也看过知乎上的相关文章,其他人做过同样的实验,结论也是无效。我认为原因可能在于,长程轨迹下 token 的奖励估计存在问题。

一方面,长程轨迹建模的方差过大。首先,长程依赖无法推导出等价的全词表形式,只有临近的第一个 token 才能适配全词表计算。而长程轨迹本身方差极大,方差会在一定程度上抵消其带来的收益。

我后来在代码中也做过实验,将衰减系数设为非零时,观察到 reverse KL 散度下降,我监测了 student 和 teacher 模型估计出的 reverse KL 数值,确实是降低的,但 benchmark 指标没有提升,最终结论也是没有实际作用。

傅宇千 (主持人):

我们也做过推导,其方差上界会持续增大,相较单 token 方案劣势明显。该方案存在一处优势:倘若 teacher 模型存在缺陷,在某个 token 之后输出错误 feedback,采用 sequence-level 能够在一定程度上缓解该问题。不过该结论仅为现象观测,模型性能并未得到明显提升。

何秉翔:

我十分认同煜贤学长的观测结论,token-level 与 sequence-level 的核心区别在于是否拆分 future reward。相较于 sequence-level,token-level 属于有偏估计,但其最坏情形的方差边界更紧凑,不会出现 sequence-level 方差大幅走高的问题。

在文本长度仅数 K、十几 K 的场景下,二者效果差距不大;但面向上百 K 量级的 agent 场景时,方差问题直接决定方案可用性,偏差与方差的取舍需要纳入权衡。

另外我们在有效的 OPD 实验配置中观测到,advantage 主要集中在 student 与 teacher 重合的高概率 token 区间,该过程等价于隐式的 token 权重重分配,落在重合区间之外的 token 贡献已通过 KL 约束得到抑制,因此显式增设 discount factor 带来的收益远低于预期。

黑盒 OPD 怎么做?

傅宇千 (主持人):

感谢各位老师的分享。

接下来,我们继续围绕 OPD 原理展开讨论,此前 Tianzhu 学长也提及针对 black-box 的 OPD 相关研究。

当前大家较为关注,针对闭源模型落地 OPD,有哪些可行方案实现 black-box OPD,请Tianzhu学长分享下这方面的相关实操经验。

Tianzhu:

我们去年开展过相关探索,此前落地 black-box OPD 一直缺少效果可靠的方案,该方向实现难度较高。

我们选用简易思路:在训练完 student 模型后额外训练一个 discriminator,用来区分 student 与 teacher 的 response,再依托 discriminator 输出打分充当 student 的 reward。

实验结果显示,该方案在偏向 chat 和 math 的实验配置中能够带来指标提升,但同时出现了 GAN 训练里的经典缺陷。

第一是训练稳定性不足,训练阶段 student 生成 response 的长度会频繁震荡。这也比较好理解,discriminator 容易依据文本长度区分两类回复,模型生成文本过长时会被约束缩短,文本过短时又被引导加长,最终造成长度震荡,该问题本质和 GAN 的训练不稳定特性同源。

第二,当前采用 sequence-level 稀疏 reward,依托整段序列完成判别;若改为按 token 训练 discriminator、逐 token 为 student 赋值 reward,模型极易训练崩溃。该现象合乎逻辑,很难依托单个 token 学习精准的奖励信号。

black-box OPD 相关尝试仍有待优化,算不上最终可行方案。从实现逻辑来看,该思路具备合理性,和 GAIL 相近,但想要更落地的 black-box OPD,后续仍存在大量研究探索空间。

顾煜贤:

我感觉或许可以借助 context distribution 实现该方案:调用目标模型本身,配合 Gemini 生成的 prompt,再引入 OPD 完成优化,以此实现 black-box 落地,该思路目前还没有落地验证。

黎亚轩:

我近期查阅了一些 black-box OPD 相关工作,其中包含此前热度较高的tianzhu学长的GAD,以及新近的 Rubric OPD。

黑盒场景的核心难点是,缺少直接手段量化 teacher 与 student 的分布差异。

Rubric OPD 的实现思路为:以 teacher 充当评判主体,逐条甄别 teacher 和 student 生成 response 的具体差异并赋予权重,再由 teacher 担任校验模型完成打分,最终加权汇总结果。

该方案持续迭代后,很容易演化成和 RL 中奖励模型相近的形态。

傅宇千 (主持人):

不管参照煜贤还是亚轩的思路,高质量构造 rubrics 十分关键。依托合理的 rubrics,或者说搭建完备的 context 空间,让教师能把他的能力传给学生也很重要。

Tianzhu:

这类方案大多是将 black-box 的 teacher 等效为 reward model 使用,但想要充分复用同一个 prompt 下 teacher 原生输出的 response,难度比较高。

何秉翔:

我自己其实对黑盒了解并不是特别多,可能像 SFT 是一个比较经典的一个,就我只利用 teacher 的 response,能不能做一个比较好的知识蒸馏,然后像去年年底也是像 Tianzhu 师兄这边的一个 GAD,我感觉也是走黑盒这条路一个很有意思的一个尝试。

就在这个之前,我对黑盒的认知是,探索如何能够利用充分利用轨迹来把 teacher 的知识去传给学生,如果黑盒没法获得模型内部的一些东西,甚至输出的 logits 都没有的话,那似乎怎么去利用这个 teacher 输出的 response 就是一个比较好的点。

就像刚刚亚轩提到,就是有没有可能我去用 rubric,我去让这个 teacher 去通过他的一些 test time scaling 把能力去诱导出来,或者去充当一个 reward model,甚至直接简单输出一个 response 也好。核心在于怎么把这个知识给传递给学生。

另外刚刚咱们也提到用 TOP K 或者是全词表,就其实是对于怎么利用这个监督信号的探讨。其实有没有可能更激进一些,就是像不同的 Family 之间不同的词表,如果都有 logits,我怎么去利用,这个时候就会需要碰到很多种跨词表、跨 tokenizer 的这种问题。

那进一步的假设,我之前也看到过有一些那种我去利用 teacher 的内部的 attention 的一些激活信号来去做某种蒸馏,那么这个时候如果 teacher 和 student 他的内部的 block 的 hidden size,或者说 depth 都不太一样,这件事又怎么去利用,其实我了解的这方面工作并没有很多,所以我感觉其实还有很多东西可能是可以研究的,核心的目标就还是我怎么让这个学生就无限的接近这个 teacher 甚至超越。

跨模型 / 跨词表 OPD

傅宇千 (主持人):

刚刚秉翔也提到了不同模型族教师的蒸馏问题,这也是当下研究的关注点。实际开展 OPD 时,学生与教师往往分属不同模型家族,会出现词表不统一、分布差异大等各类难题,想请教各位有什么可行的优化解决思路。

此前 Lightning OPD、Rethinking OPD 相关工作都给出一个思路,在师生分布差距较大时,先通过一轮热身 SFT,让学生模型初步贴近教师分布后再执行 OPD;但针对词表无法对齐的痛点,目前还缺少成熟的解决方案。

Tianzhu:

词表对齐同样是很有探索价值的研究方向。

早前 Hugging Face 有一篇paper,但实测落地效果不理想,痛点在于跨模型词表重合度过低。我记得中科院自动化所前段时间也出过一篇相关论文。整体来看,异构词表对齐和黑盒蒸馏一样,目前仍属于尚未被充分探索完善的研究方向。

傅宇千 (主持人):

Tianzhu提到的自动化所相关工作就是我们的《Revisiting OPD》。我们的处理方案比较简易,直接将无法对齐的 token 做 mask 屏蔽处理,想听听各位有没有别的看法。

黎亚轩:

我比较好奇跨词表、跨模型家族蒸馏的问题,不同家族模型容易出现推理范式不一致的问题。倘若师生模型的思考逻辑相差过大,OPD 最终效果或许还比不上单纯 SFT,这点我暂时没有定论,想和各位学长探讨交流。

何秉翔:

我还有一个思考方向,结合我们目前的实验结果来看:即便师生共用一套词表、不存在词表不匹配问题,在模型参数量规格差距较大时,OPD 效果依旧不理想。

也就是说同词表场景的适配问题尚且没能妥善解决,跨词表蒸馏的难度自然更高。而面对部分闭源模型,我们甚至无法获取其词表信息,当下最稳妥的主流方案,似乎就是采用黑盒思路,依托 SFT 完成蒸馏。

傅宇千 (主持人):

可以再详细说一下尺寸不一样,带来的性能的损失。

何秉翔:

那我具体展开聊聊模型尺寸差异引发的性能损耗,这也是我们课题最初的研究动机。

我们原本没计划系统性剖析 OPD 内在特性,最初只是想要复现 Thinking Machine Lab 博客里的实验效果。实验里先用同规格 1.5B 模型,自行经过 RL 训练得到 Teacher,再用 OPD 蒸馏同尺寸 1.5B 学生模型,能够高效恢复 Teacher 八成以上性能。

后续我们更换同源 7B 强 Teacher,该模型综合能力远优于 1.5B 版本,可在用它蒸馏 1.5B 小模型时,OPD 训练全程收敛停滞,学生很难吸收高性能 Teacher 的知识。我们的论文正是围绕该现象展开,探究大跨度参数量差距下,强教师无法通过 OPD 有效赋能小模型的底层原因。

杨晨旭:

秉翔我有个问题,你们有没有试过用 30B、上百 B 量级的大模型去蒸馏,效果会不会优于 7B 蒸馏 1.5B?模型尺寸差距和性能恢复效率之间是否存在某种关联?

何秉翔:

这个问题提得很好。我们在观测两组实验效果差异后补充了对照实验:一组是 7B 规格的 Skywork 经过 RL 之后作为 Teacher,蒸馏同尺寸 7B 学生,OPD 训练效果正常;换成 14B 大模型蒸馏 7B 学生,又复现了之前的失效问题。

不过 30B 及以上档位的对照实验我们还没开展,现有结论存在局限。另外还有一个值得留意的地方,qwen3 的技术报告里提到,它的小参数版本基本依靠 SFT 叠加 OPD 训练而来,在跨尺寸蒸馏上落地效果出色,这点也让我比较感兴趣。

多教师 / 多领域 OPD

傅宇千 (主持人):

好,那跨尺寸相关内容先到此。

接下来咱们聊一下 OPD 原理另一个相关问题:OPD 优势是可做多领域知识融合。我们落地的多 Teacher OPD 方案是一个领域对应一位 Teacher,完成多领域联合蒸馏;还有另一种多 Teacher 范式是单个领域同时接入多位 Teacher。

那在做 multi-teacher opd 时,对于单个领域,我用多个 teacher 同时去学,这两种不同的 multi-teacher opd,它是不是会发生一些,或者是不是会观察到一些专家冲突的问题,然后冲突怎么去解决?大家有没有在实际的 multi-teacher opd 当中观测到类似的问题?

我这边先来分享一下吧,我们之前有做过,不管是多任务 RL,还是多 Teacher OPD,现阶段都缺少一套可量化、能在训练前预判 Teacher 间知识冲突程度的指标。

我们实验发现,不管是多任务场景还是 OPD 多教师蒸馏,各个 Teacher 之间是出现知识冲突、还是互相增益提升泛化能力,事前都难以预判,这也是我们当下的难点。

杨晨旭:

我感觉是 multi-task 那种,多个 domain 的冲突还稍微弱一些,直接部署多个 teacher,对于不同的任务就直接去 call 一下它相应的 teacher,直接 mix 在一个 batch 里去训。可能任务之间差异比较大,然后他们本身冲突也会比较小。

我感觉,multi-task 上 mopd 它一定程度上为了解决直接去 mix 的 RLVR 效果不好的一个问题提出的。至于单个 task 上用不同的 teacher 可能是会有一些问题,我个人觉得是可能冲突会更严重一些,毕竟在同一个问题上,甚至相似的一些问题上,可能各个 teacher 他的一个 Pattern 不太一样,反而会在同一个轨迹上有一些互相冲突的一些情况存在。

我觉得它的实际的一个意义没有在多个 task 上去做 opd 意义更大一些。就假如是单个 task 的话,为什么不直接用最好的去做 opd 就可以了。

OPD 与 RL 的关系与区别

傅宇千 (主持人):

我刚刚有关注到,你说我们做 multi-teacher opd 的时候它其实是会比 MIX-RL 要好,这一块不知道有没有可以更深入去讲。

因为我了解到在做 mult-teacher opd 之前,大家去融合能力的方式其实是去做 MIX-RL,这两者之间有什么联系,不知道你能不能讲一下。之前Tianzhu学长也有提到说 rl 和 opd 还是认为是不太一样的两个方法,可以再去深入的讨论一下。

杨晨旭:

这是我们在自身工作中发现的一些现象,前段时间我们做了 COPD,在同一批多领域数据上分别进行混合 RLVR 与 MOPD 实验,MOPD 效果确实更优。

MIMO 的报告中也提及 MIX-RL 存在冲突问题,我认为 OPD 会更适配持续学习。前段时间还有一篇 SDFT 相关工作,思路和 MOPD 相近,分步逐个任务训练,模型遗忘程度更低。

傅宇千 (主持人):

没有,其实就是想讨论一下 MIX-RL 和我们所说的 MIX- OPD 二者之间的区别。后续 Tianzhu 学长也可以补充,谈谈您认为二者存在哪些本质区别,以及为什么这些区别使得现在大家更多选用 OPD。

Tianzhu:

我认为融合方案的核心在于 OPD 收敛速度快。单独 RL 训练单个任务耗时漫长,且训练轮次越多灾难性遗忘越严重;OPD 仅需很少的训练步数,就能快速习得 RL 任务的能力,依靠少步数训练来降低遗忘,这是关键优势。

MIX-RL 和 MOPD 实验设定相近,TML 博客里也验证过先对模型做 RL、再用 OPD 回灌知识的方案,核心亮点就是凭借快速收敛,低成本获取 RL 增益。除去算力与训练时长,遗忘问题是另一关键,SDFT 等相关论文也佐证了这点。

从训练目标与落地实现来看,RL 和 OPD 本身存在本质差异。TML 博文把 OPD 类比 RL、套用奖励概念,更多是便于理解或是贴合行业热点,深究底层逻辑,OPD 本质更像是拟合目标分布,二者优化目标并不相同。

我想听听各位实操经验,比如 RL 串联 OPD 后,域外泛化、模型遗忘等实际表现,我近期也在跟进相关研究,借此交流参考。

傅宇千 (主持人):

这里我可以分享一下,我最近在做一些实验,我们发现 RL 的泛化性会比 OPD 更强,实验现象是这样。

我的分析是信号来源不一样,OPD 正如刚才 Tianzhu 所说,目标是拟合教师,而教师并不是任务环境动力学的完美表征,只是当前任务的一种映射。

OPD 的泛化能力取决于教师和环境真实反馈的贴近程度。但 RL 使用的奖励是真实基准真值,本质在学习环境动力学,不同环境的动力学存在共性,因此 RL 泛化效果更好,这是我的观点。

顾煜贤:

我很认同宇千的观点。据我的实验观察,即便教师输出可以当作稠密奖励,但这份奖励并不完善。

我在小模型实验里发现学生很容易出现投机拟合的问题:OPD 依托反向 KL 优化,是把教师视作奖励信号,让学生生成教师偏好的内容;而语言模型本身偏爱重复文本,重复段落输入后模型 PPL 偏低。

日常经过 SFT 与对齐的大模型采样很难暴露该缺陷,但用偏弱的小模型做 OPD 蒸馏时,小模型就容易放大教师本身的短板、刻意投机适配不完美的教师输出,这也是 OPD 泛化表现比不上 RL 的一大原因。

傅宇千 (主持人):

非常认同刚才的观点,我们实验里也观测到了这种投机拟合现象,查看样本后确实就是内容重复的问题,即便文本重复,教师模型依旧会给出很高的概率。

何秉翔:

煜贤学长、宇千提到的问题我们实验里也完整复现了,用基座模型做学生开展 OPD 训练时,小模型极易投机拟合、生成重复文本。

另外我们近期基于 MiniCPM5,在代码、数学、指令三四个领域开展多 Teacher OPD 实验,学生可以完整追平 Teacher 效果,工业落地收益突出。

一方面归功于Tianzhu学长所说 OPD 训练高效;从工程落地流程来看,传统方案要么混合 RL、要么串行分步 RL,串行 RL 存在链路瓶颈,前序任务训练出错会连锁拖累后续任务,跨团队协作落地成本高。而采用 OPD 合板方案后,各领域团队可以独立迭代优化自身数据与Teacher,各司其职。

我们猜想多 Teacher OPD 能够有效缓解灾难性遗忘。我同样认同 OPD 与 RL 的环境动力学存在本质区别:各领域经过 RL 产出 Teacher 后,OPD 学习的是稠密化的中间思维范式信号,并非 RL 那种基于最终结果的稀疏奖惩。

在多目标优化场景下,对齐思维范式更容易收敛至帕累托最优。对比 GRPO 依靠多条采样轨迹的正误做0-1离散奖励,梯度波动剧烈、混合训练稳定性差,OPD 优化过程平缓很多,GRPO 一旦采样全错或个别样本异常就会产生大幅梯度扰动,造成Mix-RL训练震荡。

我们还有一组对照实验佐证 OPD 优化逻辑:以大能力强模型为Teacher、小参数弱模型为学生时,OPD 训练反而会造成学生性能大幅下滑。

这也说明 OPD 优化目标只复刻教师的思维范式,不直接优化下游最终效果;思维范式优质则学生能力提升,范式存在缺陷就会被模型钻空子投机拟合。

黎亚轩:

我记得晨旭学长在 COPD 里提到过一个现象:模型先 RL 训练数学任务,再串行 RL 训练代码任务,最终效果不佳,因此依靠 OPD 完成多任务合板。

另外我们做 OPD 后发现,稠密监督并不是没有弊端。原因在于回复文本只有前面一部分内容有效,后文大多是噪声内容,容易干扰训练效果。

像 Agentic 任务,我怀疑 OPD 的适配效果有限。千问近期发文也提到, Agentic OPD 实测表现一般,业内也衍生出各类优化手段改良 OPD;而Agentic RL 训练方案发展成熟。

整体来看 RL 在这类任务上效果会更出色。

杨晨旭:

我觉得刚才大家提到的效率这个点很有意思。除了混合 RL、OPD 之外,过去还有 Model Merging 这类免训练的模型合并方案,但这类方案效果普遍最差。

OPD 相当于处在中间的折中位置:混合 RL 需要海量训练数据,串行训练容易出现遗忘;OPD 训练效率高、收敛速度快,模型还没发生明显旧知识遗忘就能习得新领域能力,综合表现远优于免训练的 Model Merging,所以现在业界落地使用更加普遍,刚好卡在实用性最优的区间。

傅宇千 (主持人):

谢谢各位精彩的讨论。

既然聊到 OPD 和 RL,我们前面说了二者的区别,另外 MIMO 提出的 MOPD 已经把 OPD 的稠密监督信号和 RLVR 的稀疏奖励信号做了融合,这套方案在他们的报告里实现思路相对简洁。

那不知道后续会不会出现更优的改进方案,让两种信号融合更稳定、进一步提升模型性能。大家有没有相关落地尝试或者研究成果,可以分享一下。

何秉翔:

这块我们之前也试过相关实验:一开始用基座模型作为学生开展 OPD,实验效果不理想。

我和亚轩当时猜测,缺少无法被投机拟合的真值奖励来校正模型是关键问题,于是做了简易尝试,直接叠加0-1离散奖励,没有额外权重调参,最终提升有限。

相关内容我了解不算深入,可能晨旭这边的自蒸馏 RLVR 会更熟悉。我顺带聊聊个人对 OPD+RL 类算法的看法,现在行业都聚焦后训练流水线:早年主流是 SFT+RL、RLHF,25年流行 RLVR,如今 OPD 被嵌入后训练流程,但各团队落地位置不同,比如有的把 OPD 放在中间,不少方案则将 OPD 作为最终合版步骤,流水线选型是当下热点,小型实验室很难完整遍历各类对比实验。

在我看来,SFT、RL 以及各类黑白盒蒸馏,本质都是对策略模型的输出分布进行调整。学生模型原生在词表具备固定分布空间,不同 Prompt 会催生差异化概率分布,各类算法就是对 token 概率做差异化调控:SFT 偏向覆盖长尾 token,补齐低频样本概率,属于 Mode Covering;OPD 依托策略梯度、反向 KL,还有 RL 优化逻辑偏向 Mode Seeking,侧重拉高高频主流 token 的概率。

各类算法本质等价于奖励塑形,按系数缩放单个 token 的优势值,核心都是驱动模型从原始分布向目标分布偏移,只是优化路径与训练动力学存在区别;只要模型参数量充足、训练数据足够,不同算法最终能够收敛至相近最优解。

杨晨旭:

感谢秉翔刚才提到我的工作,我做的 OPD 与 RL 结合主要落地在自蒸馏场景,传统 OPD 融合方案我没有深入尝试。

我发现 OPSD 类方法的效果高度依赖数据与任务类型,做多模态实验时直接套用 OPSD 容易出现信息泄露:生成后半段模型反复依赖训练阶段的特权信息,但实际线上推理拿不到这类信息,这也是我研发 OPD+RL 融合方案的出发点。

OPD 提供稠密监督信号,我们拆分两路优化逻辑:依靠 RLVR 真实标准答案做结果约束把关,OPD 仅用来调控参数更新幅度。这套思路只在自蒸馏场景验证,和 MIMO 多专家架构的 OPD+RL 不一样。

直接加权融合两种信号效果很差,根源是两类梯度量级不一致、超参调试难度高;换成 LSD 方案,把相加融合改成相乘融合,利用证据比值缩放优势值,能够有效缓解稠密 OPD 信号和稀疏 RL 信号之间的优化冲突。

Self-OPD / In-context OPD

傅宇千 (主持人):

既然秉翔刚提到 self OPD,我们就顺着这个话题往下聊,相信直播间不少朋友和 OPD 领域研究者都很关注。当下很多人的研究方向就是 self OPD 以及 in‑context OPD。

我想请教大家相关看法,同时我有个疑问:晨旭刚才提到 self OPD 训练时,学生容易复述特权信息,这块有没有稳妥的解决思路?一是从 OPD 算法层面怎么优化,二是落地细节怎么处理。

杨晨旭:

我们最开始试过不少办法处理该问题,但效果始终不理想。SDPO 在附录里给出过方案,大概是掩码掉生成开头部分 token 用来规避特权信息泄露,我们实测、调整 top-k 等各类参数后,在多模态场景下泄露问题依旧存在。

正因如此,我们选择把优化方向和更新幅度做解耦,让 OPD 不再直接改动学生模型分布,转而间接调控梯度更新幅度,充当 RLVR 的辅助约束,这是我们现阶段的探索思路。

顾煜贤:

我目前刚起步研究,也碰到不少难点。如果把 in‑context OPD 视作一种持续学习方案,我还是倾向持续学习需要将知识固化进模型参数。

当下持续学习大致分成两大路线:参数更新派、免参数更新派。

近期免参数路线热度很高,像 Claude Code 依靠外部技能库调度,不靠微调参数就能落地一部分持续学习能力;而对于参数更新路线,Self-OPD、OPCD 是落地潜力很高的方向,核心难点在于怎么用好模糊的奖励信号。

传统 RLVR 需要和环境交互、依靠量化数值奖励才能完成优化,而 OPCD 依托上下文,借助模型把模糊反馈转化为稠密监督信号。这也是它适配持续学习的关键。

Tianzhu:

我很认同煜贤的看法,OPCD 也就是 On-Policy Context Distribution,更适配难以获取 0-1 离散奖励的场景:任务结果无法核验、反馈多以文本形式给出时,把反馈放进上下文做蒸馏会更合适。

另外顺带一提,多篇冠以 Self 开头的自蒸馏论文,命名和实际落地内容存在偏差。自蒸馏定义宽泛,像 STAR、先 RL 微调模型再 OPD 回灌参数这类方案都能算作自蒸馏,却没有用到上下文学习;但实际上他们的核心是吸收上下文信息,所以相关论文的命名并不严谨。

结合之前讨论,上下文范式极易出现模型投机拟合的根源在于:学生复刻教师分布,但教师依托上下文生成的输出分布本身没有可靠性保障,不能默认带入上下文后教师效果就一定提升。我自己的实操经验来看,将上下文提炼成高层抽象条目能更好改善这个问题。

如果直接堆砌学生过往完整的采样轨迹,模型很容易投机重复原有内容;先对原始轨迹提炼总结,转化为高阶指导性经验知识是可行思路。模型经过预训练后,能够遵照高层指令规范输出,但杂乱无章的原始答案不在模型的有效学习分布内,会导致教师生成的分布偏移失真。

《Self Distillation Zero》这类文章给出优化思路:收集教师纠错类样本、针对性微调教师模型,以此保障上下文搭配教师后的输出分布有效。这也是上下文蒸馏和常规 OPD 的关键差异。

标准 OPD 使用规范 Prompt,教师整体输出稳定可控;但随意拼接上下文时,被上下文触发的教师分布质量无法保证。

傅宇千 (主持人):

我补充一点看法,很认同Tianzhu的观点。这类问题根源往往不在 OPD 算法本身,而是 Prompt 设计。自动提示优化(Automated Prompt Optimization)正是对应的研究方向,今年 ICLR 收录的 GEPA 就是代表工作,核心思路是通过优化 Prompt 来提升模型表现。

我们复现 GEPA 相关实验时发现,优化后的 Prompt 不能过于细碎、不能逐条适配单样本;相较定制化 Prompt,Tianzhu刚才提到的高度抽象、条目式的种子 Prompt 效果反而更好,这个结论也合乎逻辑。

顾煜贤:

我再提一个问题,OPCD 是落地持续学习的一类算法,但我科研目前卡在缺少适配的实验环境、标准基准与数据集。想请教各位,研究这类持续学习该选用什么评测环境?

何秉翔:

顺着煜贤的问题、结合刚才 Self-OPD 的话题,我也比较认同 Tianzhu的观点,上下文是关键本质,各类先验信息都可以塞入上下文,既能放入待内化的知识点,也能填入历史错误轨迹、环境反馈、工具报错等内容,依托上下文开展蒸馏逻辑合理。

不过我们实操发现,小模型落地该方案短板突出:小模型上下文理解能力有限,堆砌详细日志、完整工具轨迹等海量上下文信息非但没法提效,反而分散注意力、拖累下游效果,部分场景空上下文表现反而更优。

反观我们用 Gemini3-Pro 仅推理阶段拼接上下文,实测效果出色。这就引出选题困惑:OPCD 相关持续学习研究,该选用小模型还是大模型?

小型实验室、高校受算力限制只能基于小模型开展实验,但小模型上得到的训练规律与动力学特征,往往很难直接迁移到大参数量前沿模型。

傅宇千 (主持人):

我插一句题外话,想请教煜贤师兄:现在业界同名的 Continual Learning 实际分成两条完全不同的技术路线,我对此一直存有疑问。

第一种就是依托 In-Context Learning 的上下文式持续学习,典型代表是混元 CL-Bench:预训练数据不含任务相关知识,推理阶段把整套完备规则、自洽说明全部塞进输入上下文,模型仅凭即时上下文里的新增信息完成决策、落地新知识。

第二种就是咱们当下围绕 OPCD、Self-OPD 讨论的参数迭代式持续学习:按顺序串行学习多领域、多任务,完成一个 Domain 再迭代学习下一个 Domain,或是面向用户做个性化增量学习、随用户数据流迭代优化模型参数。

我想确认下这两种同名 CL 的本质区分边界。

顾煜贤:

目前行业本身没有严格统一的界定,我认同你的划分,大体就两类。一类好比直接给到一整本资料,模型仅凭上下文当场读取使用新知识。另一类就是分批依次接收任务,循序渐进迭代优化、持续精进。

我理解 OPD 更适配第二种持续学习范式:模型和环境持续交互、不断接收新增反馈,循序渐进迭代更新参数、把新知识内化进权重。在我看来,OPD 更适配持续交互、持续接收环境反馈的场景;其余在线学习、别的持续学习落地场景,则需要搭配其他算法方案。

Tianzhu:

虽说都叫 continue-learning,但最终想要达成的目标差异很大。拿 TML 相关工作来看,它们更偏向做 personalize,用到 LoRA,相关后续讨论也和 Tinker 的实现方式挂钩。

这类方向相关工作不少,像后续 OpenClaw-RL,核心逻辑都是基于用户与模型交互产生的 preference,再把信息回写到模型权重里,比如为单个用户单独训练一份小 LoRA。

但在我看来,这类个性化任务依靠 context 方案基本就能落地。比如 OpenAI 的 memory 能力,个性化记忆究竟有没有必要写入模型权重,目前还存疑。

另一方面,continue-learning 还有一类是持续适配时效性增量数据,也就是给模型注入近期新知识、迭代存量知识库,这也是很主流的持续学习路线。

第三种则是持续接入全新任务,新增任务的数据分布和原有数据偏差明显,coding 任务就是典型。模型离线基于 Training data 完成训练上线后,现实落地会碰到大量 OOD 数据与陌生新任务。

研究难点就是在不破坏原有分布的前提下,持续把新任务、新环境、用户全新交互习惯等信息融入模型,我认为这条研究路线最有价值。 产品(例如 CC)正式上线后会产生海量 OOD 用户数据,数据体量与分布跨度已经超出 context 承载上限,没法只靠上下文实现知识内化。

这也是当下缺少公认 continue-learning bench 的关键原因:coding 评测任务长、难度高,学术界很难批量跑分,大厂内部落地方案又不对外披露。但 coding 场景十分适合开展持续学习研究。

黎亚轩:

我比较好奇一点:即便有 continue-learning bench,不同模型跑出来的结果也很难横向对标。现在 self distill 大多基于小模型实现,普遍存在投机拟合、特权信息泄露的问题。

如果换成 DeepSeek-V2 这类能力拔尖的开源大模型做推演,bench 指标大概率会明显走高。

Tianzhu:

我觉得原因可能在于,目前开源和闭源模型在 follow instruction 的能力上差距明显。使用 CC 就能发现,它的 instruct 遵循能力要强很多。因此在 continue-learning bench 中,直接把内容放入上下文实现持续学习的效果,和模型对 context 的 Utilization 利用能力高度相关。

OPD 未来发展方向与落地场景

傅宇千 (主持人):

接下来我们简单聊聊 OPD 后续发展方向。

Tianzhu:

在我看来,OPD 往后大概率会成为训练 pipeline 里的配套工具。当下主流训练都围绕 RL、RLVR 展开,RLVR 很难突破 oracle reward 的上限,现阶段 OPD 更多起到辅助补齐的作用,未来能不能在通用 reward 场景做出突破还不好下定论。

落地层面,像千问借助它做小模型蒸馏,也是大厂早期落地 OPD 的核心诉求,小模型蒸馏会是 pipeline 里关键一环。

从持续学习维度来看,Self OPD、OPCD 是重点方向:模型上线后和真实用户持续交互,源源不断产出轨迹与 OOD 数据,这批数据经由上下文蒸馏回灌迭代模型。

我们之前 OEL 论文重点讨论过该痛点:用户交互数据很难完成完整全量 rollout,大多只能依靠 partial rollout 拟合 reward,而这正是 OPD 的优势场景。

Self OPD、OPCD 不用完整推演至末尾获取最终 0/1 reward,依托上下文约束的 Teacher 就能在推演中途提供学习信号。因此我很看好 OPD 在线学习场景,能够实现优于传统 RL 的效果。

另外我近期也在调研非 RLVR 的通用任务,探索 Self OPD / OPCD 在陌生场景的差异化效果,目前行业还没有统一结论。

黎亚轩:

我对 OPD 发展感触很深。OPD 已是成熟的算法框架,早在 2023 年煜贤学长就在 MiniLLM 相关大模型工作里落地了 OPD 思路,加上千问 3 依托 OPD 完成小模型蒸馏的成熟工业落地,现在每周差不多新增六到七篇 OPD 相关论文,基础改动的创新空间已经不大。

在我看来值得深挖的有两条路线:第一是 RL 与 OPD 融合,像晨旭学长团队的 RLSD 工作就做得很出色,这个落地前景很好;

第二是多教师蒸馏融合,目前业界常用 OPD 做模型合版,但把多个 teacher 的能力高效凝练到单个 student 里难度很高,同团队的 COPD 就是该方向代表,多师协同蒸馏还有充足的研究余地。

顾煜贤:

我个人更看好 OPCD 在 continue-learning 方向的落地价值。我本身偏向全参数训练路线,后续打算依托该方案搭建具备持续学习能力的模型或是 Agent。

单从 OPD 算法本体来说,不管是稳定性优化、各类任务指标刷点,可挖掘的改进空间已经比较有限。未来的重点不在算法迭代,而是拓展落地场景,像前面提到的模型合版、continue-learning 这两个领域,仍留有充足的研究空间。

杨晨旭:

在我看来,当下学界围绕 OPD 更适合深耕自蒸馏相关内容,未来前景大致分成两条路线:第一种偏向易落地,大多是算法层面的微调优化,思路精巧、叙事完整,很受学术论文青睐,但实际性能提升有限。

真正贴合工业、基座模型团队攻坚的是高难度方向,比如黑盒 OPD、跨词表 OPD,落地门槛很高,一旦实现突破,行业影响力和模型增益都会十分可观。

何秉翔:

在我看来,想要研判 OPD 后续发展,要先梳理现有方案的局限。OPD 最初凭借密集 token 级 dense-reward 实现高效训练、收敛速度优于 RLVR,看似是无成本的优质优化,但这套密集监督并非免费午餐。

结合 Revisiting OPD 相关结论,我们同样观测到长上下文场景的明显缺陷:随着学生自主生成的前缀不断变长、轨迹持续偏离教师分布,教师输出的监督信号噪声显著抬升、熵值偏高;若强行让学生拟合可信度不足的 token 监督,极易造成梯度崩坏。

针对长上下文 OPD 痛点,Agent 落地场景需要针对性算法优化,Cursor2.5 就采用局部 Self-OPD 方案,通过截断生成区间规避超长轨迹带来的 reward drift 问题。

在 OPD 落地前景上,我和 Tianzhu 观点保持一致:OPD 本质属于知识蒸馏技术,核心价值聚焦已有知识迁移,很难突破模型原有能力边界。

落地主要划分两大场景:第一,工业后训练流水线,依托 OPD 做模型合版,对比 Mix RL 相关方案训练效率更高,同时在性能修复、缓解灾难性遗忘上表现突出;

第二,大模型蒸馏小模型、端侧轻量化落地,SFT+OPD 大概率会成为行业标准化训练范式。

不过工业端后续是否长期沿用 OPD 合版路线仍存变数:RLVR 依托结果式稀疏奖励,更有机会拓展模型原有能力边界、提升泛化能力,实际效果还需要持续验证。

除此之外,OPD 相关工作开拓了全新研究思路:数学、代码任务可依托任务专属离散奖励,但通用域缺少定制化稀疏奖励,业界普遍依赖生成式奖励模型做打分。

由此衍生新思路:借助 Context Distillation,将参考答案、环境交互反馈全部拼接进上下文,让模型依托上下文的内隐信息完成自监督学习,这条路径也为 Self-Evolving 开辟了全新研究维度。

傅宇千 (主持人):

我主要有两点看法。第一,文本反馈是 OPD 很关键的落地场景,Tianzhu 和秉翔刚才都提到了。在 Cursor2.5 落地之前,工业界很少能拿出 self-distillation 落地见效的实例,Cursor 借助该思路基于用户交互优化模型行为模式,落地价值很高。

参考它过往针对 Tab 功能,采集用户操作决策做 on-policy 训练的方案,后续它很有可能把用户使用过程中的行为数据,通过 self-distillation 蒸馏进自家 Composer 模型。

第二是效率与 partial rollout 方向,和 Tianzhu 的观点一致。我们近期实验发现,仅针对一段回复靠前 10% 内容做 OPD,最终效果就接近全量文本做 OPD。

背后两点启示:一是轨迹开头 10% 基本锁定后续生成规律;二是长周期 Agent RL 训练不必完整 rollout,只推演前段部分内容、依靠 OPD 获取监督奖励即可训练,这个方向前景很好。

精选问答

怎么看待 PG style OPD 和 GKD style OPD?KL 放进 loss 传梯度,还是放进 reward 不走梯度回传?

顾煜贤:

KL 放进 reward、依靠 policy gradient 优化等价于 top-1 采样形式;如果采用全词表 KL 计算,就转化为标准损失 loss 形式,两种范式在数学期望层面等价。

不管选用哪种方案,样本全都由 student 模型在线 rollout 采样得到,因此天然和 policy gradient 挂钩,不能简单看作额外附加 loss。

从推导来看,GKD 在期望上等价于把 KL 作为 reward 的 PG 路线,但 GKD 存在多种变体:

  • Reverse KL:和 reward 形式严格等价;
  • Forward KL、GSD:不存在上述等价关系,只能依托全词表设计经验化优化策略。

模型自蒸馏时自己和自己KL为0该怎么理解?

傅宇千 (主持人):

自 KL 仅在数学期望上等于 0,单次实际采样得到的样本分布和原分布存在偏差。

Think Machine Lab 相关实验:模型用自身生成数据做 SFT,模型性能逐步下滑。他的解释就是自采样样本带有分布偏移信号,反复在自生成样本上训练会逐步偏离原始分布,沦为 off-policy 训练。

OPD做完Student rollout后,是否需要拒绝采样、丢弃低分样本,只优化正向reward轨迹?

黎亚轩:

我们在 Strong-to-Weak distillation 实验里有相关副结论:选用 DeepMath 数据集,单独筛选高难度题目子集做 OPD,模型提升幅度很差;改用简易 Prompt、偏简单的样本训练,OPD 增益更突出。该规律目前仅在本组实验得到验证,暂无法确认可以全场景泛化。

训练前有没有量化指标,预判当前场景适不适合OPD、预估Student能补齐和Teacher之间多少性能差距?

何秉翔:

目前没有能精准定量预测性能补齐幅度的指标。

我们 Rethinking OPD 提出两个参考度量:overlap ratio(师生 TOP-K 候选 token 重合率)、重合 token 的概率加权总和。

指标逻辑:依托两处数值判断师生输出分布、思考模式的相似度;师生分布越贴近,OPD 带来的性能提升通常越可观。但暂时无法依靠指标量化具体涨幅,相关定量研究仍待补充。

多专家OPD,采用mini-batch多领域混合训练,还是分领域顺序训练?

傅宇千 (主持人):

业界主流为同一个 mini-batch 内混入多领域数据混合训练,不采用分Domain串行训练。

VLM场景下OPD有什么落地实践、相关论文/开源项目推荐?

杨晨旭:

RLSD 公开仓库可直接复用脚本复现 OPD;代码领域参考 SDPO,通用数学、纯文本场景可参考 EXOPD 开源工程。

OPD训练所用Query,和师生基座模型预训练/SFT数据的Query需要保持一致吗?

傅宇千 (主持人):

英伟达 Lightning OPD 论文方案:OPD 蒸馏阶段和师生 SFT 使用同一套 query。

黎亚轩:

在 Rethink OPD 的 recycle 相关实验中,采用与 SFT 完全相同的一套 query 做 OPD,训练效果更优,但会出现模型生成熵偏低的问题;熵值不足会影响后续 boost positive 优化任务的效果,因此实操建议在原有数据基础上混入部分额外 OPD 数据联合训练。

VLM的OPD和纯文本LLM的OPD相比,有哪些差异化结论?

杨晨旭:

我没有观测到 VLM 与纯文本 LM 在 OPD 上存在本质区别,核心差异集中在生成序列长度:VLM 普遍生成文本更短,纯文本模型生成长度更长。

依托上下文拼入 Prompt 的 OPD 方案容易受超长上下文拖累、性能衰减,因此这类算法在短生成的 VLM 任务里适配效果更佳。

另外我在 VLM 上做 RLSD 实验有个特殊结论:依托完整交互轨迹训练、直接使用标准答案训练两种方案效果接近;但在纯文本场景下二者性能差距明显。

整体来看二者区别主要来源于生成长度。

目录