作者：Escapist
https://zhuanlan.zhihu.com/p/2009410859999437740

Introduction

从 SFT、RLHF/RLVR 到 On-Policy Distillation

大语言模型的后训练在很长一段时间内有两种主要的方式。

第一个是监督微调（SFT）/ off-Policy Distillation。它以高密度 token 监督换取训练稳定性，但训练分布由数据集或教师采样固定给定，是一种 off-policy 的训练；

第二条主线是强化学习（RLHF/RLVR），它以 on-policy 采样直接优化当前策略的行为，但奖励通常是稀疏、延迟且高方差的。

On-policy distillation 的关键意义在于把两种方法的优点进行组合：采样来自当前学生策略，监督却来自教师分布的密集 token 级信号，从而同时具备了 On-policy 和奖励密集的两个优点。

七篇论文对 On-Policy Distillation 在算法和工程上进行了探索：从 GKD 的 on-policy KD 统一化，到 MiniLLM 的 sequence-level reverse KL，再到 G-OPD 的奖励外推、OPSD/SDFT/SDPO 的自蒸馏扩展，以及工程化经验总结。

Preliminary

Forward KL 与 MLE/SFT 的等价关系

设真实或教师分布为 P，学生模型分布为 Q_\theta。前向散度定义为

D_{\mathrm{KL}}(P\|Q_\theta)=\sum_{y}P(y)\log\frac{P(y)}{Q_\theta(y)} =\mathbb{E}_{y\sim P}\big[\log P(y)-\log Q_\theta(y)\big]. \\

由于 \mathbb{E}_{P}[\log P(y)] 与 \theta 无关，可得

\min_\theta D_{\mathrm{KL}}(P\|Q_\theta)\quad\Longleftrightarrow\quad \max_\theta \mathbb{E}_{y\sim P}\big[\log Q_\theta(y)\big], \\

这正是最大似然估计（MLE）与 SFT 的数学形式。因此 SFT 可以被严格解释为“用 one-hot 目标最小化前向 KL”的特殊情形，标准 KD 则是把 one-hot 换成教师 soft label，但仍然保持前向 KL 结构。

前向 KL 的期望是在教师/数据分布上取的，P 中概率越高的区域在目标里权重越大；如果学生在这些区域给出过低概率，会产生明显惩罚。

与此同时，前向 KL 对“学生在低概率区域的质量分配”的权重较低，容忍度较高，因此整体表现出来 mode covering 的行为。因此在容量受限，无法完全拟合大模型的小模型上，常见现象是模型把概率摊平以尽量覆盖更多模式。

这个“尽量不漏掉主模态”的倾向在摘要、翻译等需要覆盖多种合理表达的任务上通常有利，但在推理任务中可能带来过度平滑，表现为输出峰值不够尖锐、幻觉概率上升。

Reverse KL、mode-seeking 与支持集约束

反向散度定义为

D_{\mathrm{KL}}(Q_\theta\|P)=\sum_y Q_\theta(y)\log\frac{Q_\theta(y)}{P(y)} =\mathbb{E}_{y\sim Q_\theta}\big[\log Q_\theta(y)-\log P(y)\big]. \\

与前向 KL 的差异不仅是两个概率分布的位置交换，最根本的差异在于期望测度变成了 Q_\theta，也就是“当前学生真实会走到哪里，就在哪里产生训练信号”。这一点使 reverse KL 具备 on-policy 属性。

同时，reverse KL 会带来 mode-seeking 倾向：若 P(y) 在某区域极低而 Q_\theta(y) 却给出质量，项 \log\frac{Q_\theta(y)}{P(y)} 会迅速增大，模型会被强烈驱离该区域，从而把概率质量收缩到教师模型的高概率峰附近，即 reverse KL 会严厉惩罚“学生去了教师几乎不去的地方”。

又由于模型中的概率分布是连续的，如果小模型覆盖了大模型多个高概率的地方，那么很大可能会存在低谷的点，导致较强的惩罚。因此学生模型会倾向于覆盖较少的高概率区域

reverse KL 的代价是多样性通常下降，但在数学、代码等“正确解峰值窄、错误代价高”的任务中，这种保守收缩往往更匹配目标。

反向 KL 的有效性依赖支持集重叠：如果学生分布几乎从不采到教师高价值区域，那么再精致的反向 KL 也难以把质量搬运过去，这正是实践中常需“先做领域 mid-training 再做 OPD”的理论原因。

JSD / generalized JSD 的对称性与稳定性

Jensen-Shannon divergence 定义为

\mathrm{JSD}(P,Q)=\frac12 D_{\mathrm{KL}}(P\|M)+\frac12 D_{\mathrm{KL}}(Q\|M),\quad M=\frac12(P+Q). \\

它是对称且有界的，避免了纯 forward or reverse KL 在 P\to 0 区域的数值爆炸。更一般地，引入权重 \alpha\in(0,1) 可得

\mathrm{JSD}_\alpha(P,Q)=\alpha D_{\mathrm{KL}}(P\|M_\alpha)+(1-\alpha)D_{\mathrm{KL}}(Q\|M_\alpha),\quad M_\alpha=\alpha P+(1-\alpha)Q. \\

该形式可被解释为在 mode-covering 与 mode-seeking 之间做连续插值，为 GKD 一类方法提供了任务可调的散度族。摘要翻译等强调覆盖性的任务常更偏向较大的 \alpha ，而数学推理等强调稳定正确峰值的任务常偏向较小 \alpha 或 reverse KL。

梯度分解、score function 与 bias-variance

考虑一般目标

\mathcal{L}(\theta)=\mathbb{E}_{y\sim q_\theta}[f_\theta(y)]. \\

对其求导得到（

\begin{align*} \nabla_\theta \mathcal{L}(\theta) &= \nabla_\theta \mathbb{E}_{y\sim q_\theta}[f_\theta(y)] \\ &= \nabla_\theta \sum_y q_\theta(y)\,f_\theta(y) \\ &= \sum_y \nabla_\theta \big(q_\theta(y)\,f_\theta(y)\big) \\ &= \sum_y \Big( (\nabla_\theta q_\theta(y))\,f_\theta(y) + q_\theta(y)\,\nabla_\theta f_\theta(y) \Big) \\ &= \sum_y q_\theta(y)\,\nabla_\theta f_\theta(y) + \sum_y f_\theta(y)\,\nabla_\theta q_\theta(y) \\ &= \sum_y q_\theta(y)\,\nabla_\theta f_\theta(y) + \sum_y f_\theta(y)\,q_\theta(y)\,\nabla_\theta \log q_\theta(y) \\ &= \mathbb{E}_{y\sim q_\theta}\big[\nabla_\theta f_\theta(y)\big] + \mathbb{E}_{y\sim q_\theta}\big[f_\theta(y)\,\nabla_\theta \log q_\theta(y)\big]. \end{align*} \\

第一项是“直接梯度项”，第二项是“score function 项（策略梯度项）”。许多 on-policy KD 方法在工程上会忽略第二项，把采样轨迹当固定数据，这会引入偏差但显著降方差；

而 sequence-level RL 风格方法保留第二项，可获得无偏估计但训练波动更大。后文 GKD 与 MiniLLM 的分歧，本质上就是对这两项是否同时优化的不同立场。

GKD：广义的蒸馏框架与散度选择

传统蒸馏通常在真实答案前缀或教师前缀上对齐学生 next-token 分布，这在分类任务中问题不大，但在自回归生成中会产生结构性偏差：训练时看见的前缀不是学生推理时会经历的前缀，导致“会在训练前缀上答对，但在自己前缀上崩溃”。

GKD 的理论起点正是把对齐位置从“数据/教师分布上的前缀”移动到“学生当前分布上的前缀”，即让学生先 roll out，再由教师给这些轨迹上的 token 提供监督，从而达到 on-policy 的效果。

对输入 x，学生从 p_S(\cdot|x) 采样序列 y，教师在相同前缀上给出条件分布 p_T(\cdot|x,y_{< t})，然后计算每步散度并对时间平均。若记任意散度算子为 D ，可写作

D(p_T\|p_S^\theta)(y|x)=\frac1{L_y}\sum_{t=1}^{L_y} D\!\left(p_T(\cdot|x,y_{< t})\;\|\;p_S^\theta(\cdot|x,y_{< t})\right). \\

这里监督信号来自教师，采样分布来自学生，得到 on-policy 且 dense 的训练信号。它也可以写成监督 KD 与 on-policy KD 的混合形式，以平衡稳定性与分布对齐速度。在 GKD 的框架中，我们不对采样的分布求导，因此没有策略梯度项。

当 D 取 forward KL 时，GKD 倾向覆盖教师所有重要模式，适合表达多样性要求较高的任务，但在小模型容量受限时易出现概率摊平。

取 reverse KL 时，GKD 会更强烈地抑制学生进入教师低概率区域，生成更保守集中，通常对数学与代码类“正确峰值窄”的任务更有利。

取 JSD 或 generalized JSD 时，可以在两者之间连续调节，并通过有界性改善训练数值稳定。由此可见，GKD 的核心不只是“on-policy”，而是“on-policy + 任意散度”的统一框架。

GKD 可自然与 RL 目标并联，形成

\mathcal{L}=\mathcal{L}_{\mathrm{RL}}+\lambda\mathcal{L}_{\mathrm{GKD}}. \\

直观上，RL 提供偏好或可验证结果导向，GKD 保持教师知识结构与语言行为约束。该联合式的意义在于：同一批 on-policy 轨迹可同时承载奖励学习与蒸馏学习，减少纯 RL 中“只知道好坏不知道哪里错”的稀疏监督缺陷，也减少纯蒸馏中“只会模仿不对齐外部 reward 目标”的问题。

MiniLLM：Sequence-level Reverse KL 与无偏梯度路径

GKD 主要在 token 局部散度上训练，而 MiniLLM 的主要创新是把训练目标提升为序列分布级别

\mathcal{L}(\theta)=D_{\mathrm{KL}}(q_\theta(y|x)\|p_T(y|x)). \\

这里 x 是输入，y 是一整条输出序列。这一步的动机是，真实生成质量往往由跨步依赖决定，仅 next-token prediction 的对齐不足以约束整段推理轨迹。

sequence-level 目标直接惩罚整条轨迹的分布偏差。落到具体算法层面，主要有两点区别：

MiniLLM 会对采样分布求导，因此会有策略梯度项
MiniLLM 使用的 Sequence-Level Reverse KL，通过 reward-to-go，使得第 n 步的更新强度取决于第 n 步之后所有步骤的分布偏差，从而显式建模这一步对未来推理轨迹的影响。

从头开始推导，目标函数

\mathcal{L}(\theta)=\sum_y q_\theta(y)\big(\log q_\theta(y)-\log p_T(y)\big). \\

对 \theta 求导并使用 \nabla q=q\nabla\log q ，得

\begin{align*} \nabla_\theta \mathcal{L}(\theta) &=\sum_y \nabla_\theta\Big(q_\theta(y)\log q_\theta(y)\Big)\;-\;\sum_y \nabla_\theta\Big(q_\theta(y)\log p_T(y)\Big)\\ &=\sum_y\Big((\nabla_\theta q_\theta(y))\log q_\theta(y)+q_\theta(y)\nabla_\theta\log q_\theta(y)\Big)\;-\;\sum_y(\nabla_\theta q_\theta(y))\log p_T(y)\\ &=\sum_y(\nabla_\theta q_\theta(y))\big(\log q_\theta(y)-\log p_T(y)\big)\;+\;\sum_y q_\theta(y)\nabla_\theta\log q_\theta(y)\\ &=\sum_y q_\theta(y)\nabla_\theta\log q_\theta(y)\big(\log q_\theta(y)-\log p_T(y)\big)\;+\;\sum_y q_\theta(y)\nabla_\theta\log q_\theta(y)\\ &=\sum_y q_\theta(y)\big(\log q_\theta(y)-\log p_T(y)+1\big)\nabla_\theta\log q_\theta(y)\\ &=\mathbb{E}_{y\sim q_\theta}\!\left[\big(\log q_\theta(y)-\log p_T(y)+1\big)\nabla_\theta\log q_\theta(y)\right]. \end{align*} \\

若定义序列奖励 R_{\mathrm{seq}}(y)=\log p_T(y)-\log q_\theta(y) ，则

\nabla_\theta\mathcal{L} =-\mathbb{E}_{y\sim q_\theta}\!\left[(R_{\mathrm{seq}}(y)-1)\nabla_\theta\log q_\theta(y)\right]. \\

其中常数 1 来自对 q\log q 求导的解析项，形式上类似于强化学习中常用的 baseline。进一步利用自回归分解 \log q_\theta(y)=\sum_t\log q_\theta(y_t|y_{< t},x) 以及因果性，可将序列奖励替换为 reward-to-go

R_t=\sum_{t'=t}^{T}r_{t'},\quad r_t=\log p_T(y_t|y_{< t},x)-\log q_\theta(y_t|y_{< t},x), \\

降低了 reward 项的方差。

文章还有如下创新点，保证训练稳定：

为了使 R_t 的数值不随序列的长度而变化，因此引入了 length normalization

R^{\text{Norm}}_{t+1} = \frac{1}{T - t - 1} \sum_{t' = t+1}^{T} \log \frac{p(y_{t'} \mid y_{< t'}, x)} {q_\theta(y_{t'} \mid y_{< t'}, x)}. \\

在 Sequence-level KL 的同时，也没有落下 Token-level KL，每一个 time step 在进行 next token 预测时，在整个词表的范围上，求 Teacher 和 Student Model 的 KL 散度。
Student Model 可能无法采样出高质量的序列，因此在采样的时候按一定比例加权混合了 Teacher Model 的概率分布

\tilde{p}(y_t \mid y_{< t}, x)= \alpha \cdot p(y_t \mid y_{< t}, x)+ (1 - \alpha) \cdot q_\theta(y_t \mid y_{< t}, x), \\

并引入了 Important Sampling 项

w_t= \prod_{t'=1}^{t} \frac{q_\theta(y_{t'} \mid y_{< t'}, x)} {p(y_{t'} \mid y_{< t'}, x)}. \\

降低方差，可以近似为

w_t \approx \frac{q_\theta(y_t \mid y_{< t}, x)} {p(y_t \mid y_{< t}, x)}. \\

最终的 objective 是

\nabla \mathcal{L}(\theta)=- \mathbb{E}_{x \in p_x,\, y \sim \tilde p(\cdot \mid x)} \left[ \sum_{t=1}^{T} w_t \left( \underbrace{ \nabla \sum_{y' \in \mathcal{V}} q_\theta(y' \mid y_{< t}, x) \log \frac{p(y' \mid y_{< t}, x)} {q_\theta(y' \mid y_{< t}, x)} }_{(\nabla \mathcal{L})_{\text{Single part}}}+ \underbrace{ R^{\text{Norm}}_{t+1} \frac{ \nabla q_\theta(y_t \mid y_{< t}, x) }{ q_\theta(y_t \mid y_{< t}, x) } }_{(\nabla \mathcal{L})^{\text{Norm}}_{\text{long part}}} \right) \right] \\

若从统一梯度分解看，MiniLLM 更接近完整优化 \mathbb{E}[f\nabla\log q] + \mathbb{E}[\nabla f]，因此理论上更忠于 sequence-level reverse KL；

GKD 类方法常近似只优化 \mathbb{E}[\nabla f]，因此更稳定但有偏。

二者并非简单优劣关系，而是针对不同训练预算与任务结构的估计器选择：当需要严格序列级最优性且可承受复杂训练时，MiniLLM 路线更有吸引力；当需要高稳定、高吞吐工程落地时，GKD 路线更实用。

Learning beyond Teacher（G-OPD / ExOPD）：奖励外推与超越教师

标准 OPD 可写为

\min_\theta\ \mathbb{E}_{y\sim \pi_\theta}\!\left[\log\pi_\theta(y|x)-\log\pi^*(y|x)\right]. \\

其中 \pi^* 是 teacher model。等价地

\max_\theta\ \mathbb{E}_{y\sim \pi_\theta}\!\left[\log\pi^*(y|x)-\log\pi_\theta(y|x)\right]. \\

引入参考策略 \pi_{\mathrm{ref}} 并加减其对数项，可得

\max_\theta\ \mathbb{E}_{y\sim \pi_\theta}\!\left[ \log\frac{\pi^*(y|x)}{\pi_{\mathrm{ref}}(y|x)} -\log\frac{\pi_\theta(y|x)}{\pi_{\mathrm{ref}}(y|x)} \right]. \\

第二项对应对 \pi_\theta 相对 \pi_{\mathrm{ref}} 的 KL 正则，因此 OPD 被重写为“隐式奖励 + KL 约束”的 RL 目标。这个等价性是 G-OPD 的理论基石。

若直接把教师当唯一参照，奖励会混合“教师后训练增量能力”与“教师基础先验偏好”。引入 \pi_{\mathrm{ref}} 后，隐式奖励

r(x,y)=\log\frac{\pi^*(y|x)}{\pi_{\mathrm{ref}}(y|x)} \\

可被解释为“相对于参考模型的能力增量”。在强到弱蒸馏场景，若 \pi_{\mathrm{ref}} 选择教师的 pre-RL/base 版本，奖励更接近纯净的后训练增益信号，从而减小容量差异引入的噪声偏差。

直到这一步，还是跟原始的 OPD 数值上相等。G-OPD 引入一个缩放系数 \lambda 在 reward 项上：

\max_\theta\ \mathbb{E}_{y\sim \pi_\theta}\!\left[ \lambda\log\frac{\pi^*(y|x)}{\pi_{\mathrm{ref}}(y|x)} -D_{\mathrm{KL}}(\pi_\theta\|\pi_{\mathrm{ref}}) \right]. \\

由推导，其闭式最优策略满足

\pi_\theta^{\star}(y|x)\propto \pi_{\mathrm{ref}}(y|x)\left(\frac{\pi^*(y|x)}{\pi_{\mathrm{ref}}(y|x)}\right)^\lambda. \\

当 \lambda=1 退化为标准 OPD；当 0<\lambda<1 为保守插值，在教师和参考策略中进行插值；

当 \lambda>1 时，学生沿着“教师相对参考策略的增益方向”进一步外推，这就是 ExOPD 的数学定义。该外推不是凭空超越，而是对增量结构做指数放大。

“超越教师”并不意味着任何条件下都成立，它依赖至少三个前提：

其一，教师相对参考的优势方向在学生容量内可表达；
其二，外推系数不过度放大噪声；
其三，采样探索仍能覆盖关键区域。

若这些条件不满足，外推会从“放大有用增量”转为“放大误差”。因此 G-OPD 的工程难点不在公式本身，而在参考模型选择、\lambda 调度和稳定训练策略三者的耦合设计。

OPSD：特权信息条件下的单模型自蒸馏（推理）

OPSD 采用了 Self-Distillation 的方式，没有一个更大的 Teacher Model，而是让 Student Model 自己蒸馏自己。核心思想是把“外部大教师”替换为“同一模型在更强条件下的版本”。学生策略为

p_S(y_t|x,\hat y_{< t}) \\

教师策略为

p_T(y_t|x,y^*,\hat y_{< t}) \\

其中 y^* 是标准答案或已验证推理轨迹。教师之所以更强，不是因为参数更大，而是因为条件信息更充分。这样做把蒸馏问题重写为“同一模型内部条件能力迁移”。

训练时先由学生 on-policy 生成轨迹，再让特权条件下的教师在这些轨迹前缀上给出 token 分布，最后最小化二者散度。

该流程同时满足分布一致性和监督密度：一致性来自学生自采样，密度来自教师全词表概率。相比先生成离线伪标签再做 SFT，OPSD 避免了静态数据分布冻结造成的失配。

笔记中的实证结论指出，在数学推理任务上，全词表蒸馏（忽略策略梯度项）往往比 sampled token policy-gradient（保留策略项）更有效。其原因并不神秘：推理任务的局部 token 决策容错率低，低方差的全词表监督能更快逼近稳定解；

而 sampled policy-gradient 虽更无偏，但在有限算力下常被方差拖慢。这一结论与 GKD/MiniLLM 的偏差-方差框架完全一致。

在数学场景中，答案正确性通常对中间步骤高度敏感。OPSD 通过特权条件把“正确推理结构”投射到学生当前会走到的状态上，相当于将本应通过大量 trial-and-error 才获得的梯度，压缩为一次轨迹上密集 token 信号，因此在单位 token 预算下可获得更高有效学习率。这也是其相对纯 RL 方法实现显著 token efficiency 提升的根本原因。

SDFT-CL：持续学习中的自蒸馏与抗遗忘

该论文主要聚焦于蒸馏的方法，探讨其能否让模型具备更好的持续学习能力与抗遗忘特性。SDFT 不使用标准答案作为特权信息，而使用 demonstrations 作为上下文条件。

教师是同一模型的“带演示版本” \pi(\cdot|x,c)，学生是“裸问题版本” \pi_\theta(\cdot|x)。该机制依赖一个关键假设：在不少任务中，ICL 能让同一参数模型瞬时表现出更接近目标策略的行为，因此可充当训练时的软教师。

SDFT 的目标通常可写为

\mathcal{L}_{\mathrm{SDFT}}(\theta)= D_{\mathrm{KL}}\!\left(\pi_\theta(\cdot|x)\ \|\ \pi(\cdot|x,c)\right). \\

由于教师来自同一模型家族且受演示锚定，学生被拉向的目标分布与原模型不会相距过远。与直接在新任务数据上做 SFT 相比，这种“带锚点的 reverse KL”更像信赖域更新，能在获得新能力的同时抑制参数漂移。

SFT 在连续任务中常把梯度几乎全部分配给新任务 token，旧任务缺乏反向约束，导致遗忘；RL 虽可 on-policy 修正，但需要可靠奖励设计，实际成本高且不稳定。

SDFT 的特殊价值在于既不依赖外部奖励建模，又能保持 on-policy 特性，并通过教师锚定形成隐式正则，因此更契合“持续积累而非阶段性替换”的学习目标。

顺序学习可视为一系列策略更新 \pi_0\to\pi_1\to\cdots\to\pi_K 。若每一步都只最优化新任务似然，更新方向可能与旧任务梯度近似正交甚至相反。

SDFT 通过“学生靠近 demonstration-conditioned 教师”的约束，在每一步都保留对历史能力结构的投影，等价于在参数空间中引入软几何限制。其效果不是绝对不遗忘，而是显著降低遗忘速率并提升新旧任务的联合可行解概率。

SDPO：利用 Rich Feedback 的自蒸馏强化学习

在可验证任务中，传统 RLVR 常只提供成功/失败标量，这在长序列推理或代码生成中会导致严重信用分配问题：模型知道“错了”，但不知道“哪一行、哪一步、哪个 token 错了”。这种稀疏监督会迫使优化器依赖高方差估计，样本效率低。

SDPO 的关键创新是构造反馈条件教师

\pi_T(\cdot|x,y,f), \\

其中 f 是编译错误、执行日志、评测反馈或由成功轨迹构造的隐式反馈。学生先生成 y ，环境返回 f ，随后教师在 (x,y,f) 条件下重评每一步 token 合理性，再将该分布蒸馏回学生 \pi_S(\cdot|x)。

这一步本质上是 hindsight re-evaluation：利用“事后知道结果”的信息把全局失败定位到局部决策。

若记学生与反馈教师间的散度损失为

\mathcal{L}_{\mathrm{SDPO}}= \mathbb{E}_{y\sim \pi_S(\cdot|x)} \left[ \sum_t D\!\left(\pi_T(\cdot|x,y,f,y_{< t})\ \|\ \pi_S(\cdot|x,y_{< t})\right) \right], \\

则即使原环境仅输出一个标量结果，蒸馏后也可得到每个时间步的密集学习信号。换言之，SDPO 不是替代 RL，而是把环境反馈通过“自教师重解释”投影成 token 级可学习结构，显著改善信用分配。

代码任务中 rich feedback 天然丰富，SDPO 可直接利用编译器与测试器信息；数学任务中即便反馈较弱，也可借成功轨迹对失败轨迹进行对照式蒸馏，得到隐式 dense signal。

该统一性说明 SDPO 的核心不是某一类奖励函数，而是“把后验诊断信息转成前向策略监督”的机制，这使其在不同验证环境中都具备样本效率优势。

TML-OPD：工程实践视角下的 OPD 配方与成本优势

这篇 Blog 首先对 On-policy RL、SFT、OPD 做了统一对比：采样是否 on-policy，监督是否 dense。

SFT 是 off-policy + dense，RL 是 on-policy + sparse，而 OPD 落在 on-policy + dense 的组合点。这个位置决定了它常能在较低训练不稳定性的前提下，显著缓解分布失配并保持较高样本利用率。

reverse KL 类 OPD 依赖支持集重叠。若学生在目标领域几乎无支撑，直接 OPD 会因“采不到好轨迹”而失效。

阶段化流程通常是先做领域 mid-training 扩大学生支撑，再用 OPD 把概率质量向教师高价值模式收拢。该流程与前文理论完全一致：先解决可达性，再做模式对齐。

工程上常见现象是：仅靠领域知识 SFT 会提升领域问答却损伤通用指令跟随。一个有效配方是先做领域的 mid-training，再使用“mid-training 前的基座模型”作为蒸馏参照，通过 OPD 把通用对话行为重新拉回，同时尽量保留领域增益。

这本质上是 reference model 思想在个性化场景的具体落地：增益与保真必须在同一目标里共同约束。

从信息密度角度，RL 的每次 rollout 仅获得一个 scalar reward，信息量为 O(1) ，而蒸馏在整个序列上获得了 dense 的监督，单位样本信息量更高，为 O(N)，因此在相近预算下往往更快收敛到可用策略。

实际落地时，若任务可获得可靠教师分布，优先 OPD；若只能获得结果而无分布，可先构造 SDPO 式反馈教师；若目标是严格序列级最优，可采用 MiniLLM 式完整梯度并投入更多稳定化工程。

Conclusion

七篇工作的共同主线可以表述为一句话：把“学生真实会经历的状态分布”与“教师提供的密集结构化信号”对齐。关键分歧在于是否忽略策略梯度、如何构造教师、以及是否允许对教师增益进行外推。

GKD 强在统一与稳健，MiniLLM 强在目标忠实性，G-OPD 强在可调超越机制，OPSD/SDFT/SDPO 强在把外部教师需求转化为条件化 Self-Distillation。

未来可推进自适应散度调度，即让 forward/reverse/JSD 权重随训练阶段与样本难度动态变化，而非全程固定；

其次是多教师组合，把领域教师、通用教师与反馈教师纳入统一参考框架，学习可解释的权重分配；

再次是测试时自蒸馏与在线反思，把 SDPO/OPSD 的思想扩展到推理期，使模型在部署阶段也能进行低成本局部策略修正。

七篇论文！深度理解 On-Policy Distillation 与 Self-Distillation