作者:Cheza
https://zhuanlan.zhihu.com/p/1972857826515908365
最近看到数不清的论文研究发现:
1.RL有上限
2.SFT本质上是一种特殊的RL
3.通过采用+优化概率分布可以实现RL的效果
今天又刷到一篇论文,从理论的视角区分了RL和SFT对LLM参数更新的差异,记录一下。
《The Path Not Taken: RLVR Provably Learns Off the Principals》
https://www.alphaxiv.org/abs/2511.08567
RLVR不是在学习新知识,而是在学习如何使用知识进行推理
数学背景补充:
在Transformer模型中,每一层都有多个权重矩阵(比如Q, K, V, O矩阵)。你可以把一个d x d的权重矩阵W看作一个函数,它将一个d维的输入向量转换成一个d维的output向量。
任何矩阵W都可以被分解为三个矩阵的乘积:W = U * Σ * V^T。
- U和V是“方向”矩阵,它们的列向量定义了一组正交的“输入方向”和“输出方向”。
- Σ是一个对角矩阵,对角线上的值叫作奇异值。这些值是非负的,并且从大到小排列。
什么是主方向: 一个奇异值的大小,代表了它对应的那个方向有多么重要。最大的几个奇异值对应的U和V中的方向,就是主方向。它们是这个权重矩阵进行转换时,拉伸幅度最大、信息承载最多的方向,储存了模型最核心的功能。
1. 论文解决的问题是什么?为什么重要?能带来什么价值?
解决的问题: 论文旨在解决一个被称为“RLVR悖论”的现象。RLVR(带可验证奖励的强化学习)是一种非常消耗计算资源但对提升大模型推理能力效果显著的训练方法。然而,它对模型参数的修改却出奇地“稀疏”,即只改变了非常小一部分的权重。相比之下,更简单的监督微调(SFT)反而会带来“稠密”的、全局性的参数更新。这篇论文的核心问题是:为什么RLVR这种高成本、高收益的训练过程,其底层的参数变化如此之小且有规律?这种稀疏性背后的机制是什么?
为什么重要:
1.理解核心技术: RLVR是驱动当前最先进的推理模型(如DeepSeek-R1)的关键技术。如果我们不理解它是如何工作的,就如同开着一辆高性能跑车却不知道引擎原理,无法对其进行优化和改进。
2.指导未来研究: 目前,很多用于RL微调的高效算法(如LoRA等PEFT方法)都是直接从SFT时代借鉴过来的。如果不理解RL与SFT在参数更新机制上的根本区别,我们可能一直在用“为锤子设计的技术去拧螺丝”,导致效率低下甚至不稳定。
带来的价值:
1.提供“白盒”解释: 论文首次在参数层面揭示了RLVR的训练动态,将一个“黑盒”过程变得透明。
2.设计新算法: 通过理解RLVR的内在偏好,可以启发研究者设计出更适合RL的、“几何感知”的参数高效微调(PEFT)方法,从而用更少的计算资源达到更好的效果。
3.提升模型训练效率与稳定性: 解释了为什么某些SFT时代的方法在RL中会失效或导致训练崩溃,为未来的RL训练提供了宝贵的实践指导。
2. 这个问题之前被解决了吗?之前的不足和这篇论文的不同是什么?
这个问题之前没有被系统性地解决。之前的研究与不足:
现象的观察者: 先前的研究(如Mukherjee et al., 2025)观察到了RLVR更新稀疏这一现象,但未能解释其背后的原因,只是猜测可能与梯度为零有关。他们只回答了“是什么”,没有回答“为什么”和“在哪里”。
关注策略层而非参数层: 其他一些工作主要从策略(Policy)层面进行分析,发现RL训练后的模型与原始模型在行为上(KL散度)很接近,但这依然没有解释参数层面发生了什么。
这篇论文的不同之处:
1.从观察到机制: 本文首次从现象深入到机制,提出了一个完整的解释框架,而不仅仅是描述现象。
2.提出核心概念: 创造性地提出了“模型制约的优化偏置”(model-conditioned optimization bias)这一核心概念,指出参数更新的模式是由预训练模型自身的“几何结构”决定的,而不是由数据或RL算法决定的。
3.参数空间与几何视角: 论文的核心区别在于,它是在参数空间(weight space)和几何视角(optimization geometry) 下分析问题,直接对比了RLVR和SFT在更新权重时的“路径”差异。
3.作者的思路模拟
1.发现异常: “咦,大家发现RL更新很稀疏,这太奇怪了。难道是随机稀疏的吗?”
2.验证一致性: “我们用同一个模型,跑五次不同的RL实验(不同数据、不同算法)。(见Fig. 2)天啊!更新的位置竟然高度一致,像条纹一样!这绝对不是随机的,也不是数据或算法导致的,一定是模型本身有什么名堂。” -> 提出“模型制约的优化偏置”。
3.寻找原因: “为什么模型会引导更新走向特定区域?预训练好的模型,其参数空间不是一片混沌,而是有其内在结构的。就像地形图,有高山(高曲率、主要功能区,论文称为‘主方向’Principal Directions),也有平原(低曲率、次要区域)。RL的KL约束就像一根‘皮筋’,不让你做大动作。那么,最小的代价(保持模型结构稳定)实现最大的奖励,自然就是走平原,而不是去撼动大山。” -> 提出“几何结构引导”。
4.构建理论: “我们可以把这个过程总结成一个理论。首先,得有根‘皮筋’(Gate I: KL锚定),它限制了每一步能走多远。然后,地形 (Gate II: 模型几何) 决定了你会朝哪个方向走——平坦的、非主要的方向。最后,为什么我们看到的是‘稀疏’?因为你在平原上走的很多小碎步太小了,以至于bfloat16这种低精度格式都记录不下来 (Gate III: 精度) ,所以看起来就像你没动一样。这三个门共同作用,导致了我们观察到的现象。” -> 提出“三门理论”。
4.Pipeline讲解(以用RLVR微调Qwen3-8B模型解决数学题为例)
- 输入: 一个预训练好的Qwen3-8B模型、一批数学题和对应的答案验证器(奖励信号)。
- 处理流程(一个训练步):
Gate I: KL锚定 (KL Anchor)
模型尝试生成一个数学题的解题步骤。RL算法(如PPO)的目标是最大化获得正确答案的奖励。
但算法中有一个KL散度惩罚项(无论是显式还是隐式的),它会说:“你可以更新,但更新后的模型在行为上不能和更新前的模型差太远。”
这相当于给参数更新ΔW的大小设定了一个上限。模型只能进行一次小幅度的“挪动”。
Gate II: 模型几何 (Model Geometry)
现在,这次小幅度的“挪动”应该朝哪个方向?Qwen3-8B的权重矩阵不是随机的,它通过SVD分解后,会发现有少数几个“奇异值”特别大,这些方向(主方向, Principal Directions)储存了模型最核心的知识和功能(比如语言结构、基本算术规则)。改变这些权重会引起模型行为的剧烈变化,像是“高山”。
为了在不破坏核心结构的前提下提升性能,优化器会选择避开这些“主方向”,而去修改那些奇异值较小的方向(非主方向, Off-Principal Directions)。这些方向像是“平原”,修改它们对模型整体稳定性的影响小,但又能有效地调整解题策略。
结果: ΔW主要集中在这些“非主方向”对应的权重上。
Gate III: 精度 (Precision)
在“非主方向”上发生的很多更新,其数值非常微小(比如1e-7)。
训练时使用的bfloat16数据格式精度有限。对于一个值为1.0的权重,一次1e-7的更新可能因为小于其能表示的最小精度单位(ULP)而被“吞掉”,最终存储到硬件上的值还是1.0。
结果: 只有那些在“非主方向”上累积得足够大的更新才会被真正记录下来。其他地方的微小更新都“被归零”了。
*输出:
- 一个微调后的Qwen3-8B模型。
- 当我们对比微调前后的权重时,会发现只有一小部分权重发生了肉眼可见的变化,且这些变化的位置非常有规律(呈条纹状),并且它们大多不在模型的核心“主方向”上。模型的整体“谱结构”(奇异值分布)几乎没有改变。
5. 这篇论文有理论基础解释为什么这个方法work吗?
有,而且非常扎实。 论文为“三门理论”的每一环都提供了数学证明:
Gate I 的理论基础:
- 命题 3.1 & 3.2: 证明了单步的策略梯度更新会导致策略的KL散度有一个上界,并且这个策略上的KL上界可以转化为参数更新量||ΔW||的上界。简单说,数学上证明了RL更新确实被一根“无形的绳子”拴住了。
Gate II 的理论基础:
- 定理 3.3 (基于Wedin定理) & 推论 3.4, 3.5: 这些都来自经典的矩阵扰动理论。它们证明了,当参数更新量||ΔW||很小时:
1.权重矩阵的奇异子空间(代表功能方向)的旋转角度会非常小。
2..奇异值(代表功能方向的重要性)本身的变化也非常小。
3.模型最重要的top-k能量几乎不变。
简单说,数学上证明了小的参数更新会自然地倾向于保持模型的谱结构稳定,从而避开“主方向”。
Gate III 的理论基础:
- 推论 3.6 & Lemma E.2: 基于浮点数表示法的基本原理。证明了bfloat16格式下,一个权重是否发生改变,取决于更新量的大小是否超过了该权重自身数量级所对应的最小可表示单位(ULP)。这解释了为什么微小更新会被“过滤”掉。
6. 这篇论文的实验验证结论是什么?
实验设计得非常巧妙,有力地验证了理论。
结论1:RLVR保持谱几何,SFT破坏谱几何 (Fig. 4)
通过对比发现,RLVR训练后的模型,其各层权重的奇异值分布和主方向与预训练模型几乎一致。而SFT则会剧烈地改变它们。这证实了RLVR走的是“谱保持”的平坦路径。
结论2:RLVR避开主权重,SFT攻击主权重 (Fig. 5)
定义了“主权重”(Principal Weights)作为模型核心功能的代理。实验发现,RLVR实际更新的权重与这些主权重的重合度低于随机水平,说明它在主动避开这些区域。
结论3:破坏几何结构,优化偏置消失 (Fig. 6)
这是一个精彩的因果实验。作者通过对某些层的权重矩阵进行“旋转”(函数不变,但几何基底改变),“扰乱”了其预训练几何结构。结果发现,在这些被扰乱的层里,原本一致的更新模式消失了,变成了随机更新。这强有力地证明了预训练几何结构是优化偏置的根源。
结论4:SFT时代的PEFT方法在RL中水土不服 (Sec. 5)
- 稀疏微调实验 (Fig. 9): 只更新“非主权重”时,模型性能和训练轨迹几乎与全量微调一样好。而只更新“主权重”(SFT喜欢的方式)时,效果惨不忍睹。
- LoRA vs. PiSSA (Fig. 10): PiSSA是为SFT设计的、专门攻击主方向的LoRA变体。实验证明,它在RLVR中不仅没有比普通LoRA更好,反而因为强制模型走“高山”路径而更容易训练崩溃。
我的思考:
1.RLVR倾向于不修改模型的“陈述性知识”(Declarative Knowledge,即“是什么”),而是去优化模型的“程序性知识”(Procedural Knowledge,即“如何做”)。
2.训练稀疏性是好是坏?
我认为它本身是中性的,是一种现象。但从这篇论文的角度看,它反映出一种“好”的特性:高效且安全。模型在不破坏自己辛苦学来的庞大知识体系(保持预训练几何)的前提下,学会了新的、复杂的技能(推理)。这是一种非常优雅的“微创手术”。
3.RL的稀疏性是否限制了能力上限?
这取决于我们如何定义“能力上限”。
- 知识上限: 是的,RLVR可能无法让模型学会它预训练语料中完全不存在的新知识。比如,如果一个模型从未见过关于“Aurelle”这个词的信息,RLVR很难凭空让它学会我是谁。
- 技能上限/推理上限: 恰恰相反,RLVR极大地突破了模型的技能上限。 大多数复杂问题(数学、编程)并不需要新知识,而是需要对已有知识进行灵活、多步的组合运用。RLVR通过优化“程序性知识”,让模型的推理能力从1提升到了100。它没有增加图书馆的藏书,但把图书馆的检索和整合系统升级到了未来科技水平。
4.SFT可以突破原有知识吗?
我认为SFT的优势在于“灌输”新知识。 如果你想让模型学会2025年的最新事件,或者一个全新的领域知识,SFT(特别是通过蒸馏)是目前最直接有效的方法。因为它直接修改代表“核心知识”的主权重,相当于在图书馆里强行“换书”。
但SFT的风险也很高。 这种“暴力”修改很容易导致模型忘记旧知识(灾难性遗忘),或者只会模仿微调数据的表面风格而没有学到真正的逻辑(过拟合)。