1. 首页
  2. 精选文章
  3. 让“思考”本身有价值!为什么模型 RL 后思维链长度持续变短?

让“思考”本身有价值!为什么模型 RL 后思维链长度持续变短?

  • 发布于 2025-12-12
  • 4 次阅读
  • 作者:Cyril-KI
  • 原文:https://zhuanlan.zhihu.com/p/1982850692340273471

一个有趣的训练现象

在SFT阶段,我们精心设计”Let’s think step by step”提示,成功诱导出丰富的思维链。然而进入RL阶段后,Wandb监控曲线显示Reward稳步攀升,测试集答案准确率保持稳定,思维链长度却悄然衰减

随着训练推进,模型仿佛经历某种”顿悟”,推理过程急剧压缩,有时甚至直接跳至结论。

造成这种现象的原因并不神秘:

第一点,很多任务并没有在奖励里考虑 CoT

Reward Model 只看最后的答案好不好,中间推理写得再工整,它也不会给你额外的分。于是模型自然发现:既然奖励信号只指向结论,那我就少写点,省 token,也降低暴露错误的风险。换句话说,这是被“稀疏奖励”驱着往简短路径走。

第二点,很多任务其实并不是“思考越多越好”

长篇常识问答、信息抽取、简单推理等任务,本身不依赖复杂推导,过度展开的 CoT 不但不会提升准确率,反而可能让模型在冗长的思路里跑偏。确实有一些研究显示:结构不良、过长的推理链会轻微提升幻觉发生率。于是 RL 在优化时,自然会偏好一条更直接、更稳定的输出路线。

第三点,是 KL 正则带来的隐性偏向

KL 本来是为了让模型不要偏离 SFT 先验太远,但另一个副作用是:越长的输出,累计的 KL cost 越高。假设 RM 并不因为“思考多”而给更多分,那模型很快就会意识到一件事——长 CoT 的性价比太低了;短句稳、成本低、reward-to-KL ratio 还最高,那为什么不短呢?

那怎么解决?

其实也不复杂,核心就是:如果你希望模型认真思考,那就得让“认真思考”本身有价值。

1、最直接的做法,是把 CoT 明确纳入奖励,不需要很复杂,哪怕只是对中间推理的完整度、逻辑性给一个小权重,也足以改变模型的偏好。

2、可以在 SFT 阶段补充高质量的 CoT 数据,让模型形成“推理是什么样子”的先验,而不是完全依赖 RL 去决定输出风格。

3、RL 阶段适当降低 KL 惩罚、或者做阶段性训练(先让模型学会必须思考,再学会压缩思考),都能让推理链更稳定。

4、如果任务本身确定需要多步思考(比如数学推理类),可以在 prompt 或生成规则里明确要求步骤化输出,让模型知道“必须写思考过程”。