作者：Cyril-KI

原文：https://zhuanlan.zhihu.com/p/1982850692340273471

一个有趣的训练现象

在SFT阶段，我们精心设计”Let’s think step by step”提示，成功诱导出丰富的思维链。然而进入RL阶段后，Wandb监控曲线显示Reward稳步攀升，测试集答案准确率保持稳定，思维链长度却悄然衰减。

随着训练推进，模型仿佛经历某种”顿悟”，推理过程急剧压缩，有时甚至直接跳至结论。

造成这种现象的原因并不神秘：

Reward Model 只看最后的答案好不好，中间推理写得再工整，它也不会给你额外的分。于是模型自然发现：既然奖励信号只指向结论，那我就少写点，省 token，也降低暴露错误的风险。换句话说，这是被“稀疏奖励”驱着往简短路径走。

长篇常识问答、信息抽取、简单推理等任务，本身不依赖复杂推导，过度展开的 CoT 不但不会提升准确率，反而可能让模型在冗长的思路里跑偏。确实有一些研究显示：结构不良、过长的推理链会轻微提升幻觉发生率。于是 RL 在优化时，自然会偏好一条更直接、更稳定的输出路线。

KL 本来是为了让模型不要偏离 SFT 先验太远，但另一个副作用是：越长的输出，累计的 KL cost 越高。假设 RM 并不因为“思考多”而给更多分，那模型很快就会意识到一件事——长 CoT 的性价比太低了；短句稳、成本低、reward-to-KL ratio 还最高，那为什么不短呢？

那怎么解决？

其实也不复杂，核心就是：如果你希望模型认真思考，那就得让“认真思考”本身有价值。

1、最直接的做法，是把 CoT 明确纳入奖励，不需要很复杂，哪怕只是对中间推理的完整度、逻辑性给一个小权重，也足以改变模型的偏好。

2、可以在 SFT 阶段补充高质量的 CoT 数据，让模型形成“推理是什么样子”的先验，而不是完全依赖 RL 去决定输出风格。

3、RL 阶段适当降低 KL 惩罚、或者做阶段性训练（先让模型学会必须思考，再学会压缩思考），都能让推理链更稳定。

4、如果任务本身确定需要多步思考（比如数学推理类），可以在 prompt 或生成规则里明确要求步骤化输出，让模型知道“必须写思考过程”。