1. 首页
  2. 精选文章
  3. ACL 2026 | CoT 真的是越多越好?混元提出 E-GRM, 让大模型“该省则省、该花则花”,按需推理!

ACL 2026 | CoT 真的是越多越好?混元提出 E-GRM, 让大模型“该省则省、该花则花”,按需推理!

  • 发布于 2026-06-15
  • ·
  • 0 次阅读
  • ·
  • ·

论文题目:Reason Only When Needed: Efficient Generative Reward Modeling via Model-Internal Uncertainty
arXiv 链接:https://arxiv.org/abs/2604.10072
作者单位:腾讯混元 & 新南威尔士大学(UNSW)
收录会议:ACL 2026
领域:LLM 高效推理 / 生成式奖励模型 / 推理优化
关键词:E-GRM,Dynamic CoT Trigger,Model-Internal Uncertainty,Discriminative Scoring,GRM,Efficiency, Reward Fidelity

摘要

在生成式奖励模型(GRM)的现有实践中,“思维链推理总是越多越好”这一信念正面临现实的挑战。

本文系统解析腾讯混元联合新南威尔士大学在ACL 2026上提出的E-GRM框架——它从根本上质疑了“无差别使用CoT推理”的合理性,并提出了基于模型内部不确定性的替代方案。

E-GRM通过并行解码的共识度判定问题复杂度,动态决定是否触发完整的思维链推理;当需要推理时,由混合损失训练的判别式评分器从多个候选路径中选出最优解。

本文将从问题背景、技术架构、训练机制、实验数据和消融分析等多个维度,完整呈现E-GRM的设计理念与实证效果。

1. 引言:为什么“一律推理”不是最优解?

生成式奖励模型(Generative Reward Model, GRM)通过思维链(Chain-of-Thought, CoT)提示技术,使大语言模型(LLM)能够生成逐步推理来评估响应质量,这已经成为提升LLM复杂推理能力的主流路线。

然而,现有GRM系统的设计存在一个根本性的前提问题:是否所有输入都需要完整的推理链?

1.1 两个被忽视的效率问题

1.同质化处理的代价:当前GRM系统对所有输入采用相同的推理流程——无论问题是“1+1等于几”还是“求这个微分方程的通解”,模型都被要求生成完整的逐步推理。这种设计忽略了输入固有的难度差异,将大量计算资源消耗在了本可快速回答的简单问题上。

2.投票机制的精度局限:在生成多条推理路径后,现有GRM多采用投票(如自洽性采样,Self-Consistency)来决定最终答案。这意味着每条推理链被赋予完全相同的权重——“深刻理解后得出的正确答案”和“碰巧猜对的正确答案”在投票中完全没有区别。

1.2 E-GRM的回应

针对上述瓶颈,腾讯混元与新南威尔士大学的研究团队在ACL 2026上提出了E-GRM(高效生成式奖励模型)。它的核心主张简洁而有力:模型应该“只在需要的时候推理”

具体而言,E-GRM引入了两个关键技术组件:一是利用并行解码的答案共识度作为动态触发信号,判断问题是否需要完整CoT;二是设计混合损失驱动的判别式评分器,对推理路径质量进行0-1区间的精细评估,替代粗糙的投票聚合。

E-GRM整体框架

图1:E-GRM框架在多个领域的应用示意,展示了动态触发与判别式评分的协同工作模式。

2. 核心技术:动态CoT触发

2.1 基于共识度的不确定性估计

动态CoT触发的核心思想可以从一个简单现象出发理解:对同一个问题多次采样解码,如果模型的回答高度一致,说明模型对这个问题“很有把握”——此时复杂的推理链可有可无。反之,如果多次采样的回答分歧很大,说明问题复杂,需要更深的推理。

E-GRM将这一观察操作化为共识度度量:

[
\text{Consensus}(x) = \frac{\max_{y} \text{Count}(y)}{M}
]

其中(M)是并行解码次数(如5次),Count(y)是答案y在M次中出现的次数。共识度取值范围为[0,1]:1.0表示所有解码完全一致,接近0表示答案高度分散。

2.2 路由决策

基于共识度,E-GRM执行简单的二元路由:

[
\text{Route}(x) =
\begin{cases}
\text{Short-path(短推理)}, & \text{Consensus}(x) \ge \tau
\text{Long-path(长推理)}, & \text{Consensus}(x) < \tau
\end{cases}
]

论文设置阈值(tau = 0.8)。当M=5时,这意味着至少4/5的解码结果一致才走短路径。短路径下模型直接输出最高频的答案,完全省去CoT生成;长路径下触发完整的逐步推理。

2.3 阈值的工程意义

τ=0.8的选择有多层考量。过高(如1.0)会导致大量本可快速回答的问题进入长路径,效率提升有限;过低(如0.6)则会让模型在不确定性较高时仍不启动推理,精度受损。

0.8恰好在MATH数据集上对应了一个自然的“断点”——约58%的样本共识度高于0.8,42%的样本低于此阈值。这个分布本身也说明:即便在数学竞赛级别的数据集中,仍有超过一半的问题模型可以“一眼看穿”。

表1:不同触发策略在MATH上的表现

策略 准确率 (%) 平均延迟 (s) 是否依赖人工规则
Forced-CoT(一律推理) 75.1 3.8
Rule-based(规则路由) 70.5 2.1
AdaCoT(特征路由) 76.8 2.9
E-GRM(共识度路由) 78.4 2.2

表注:E-GRM在准确率和延迟上均占优,且不依赖任何人工设计的路由规则。

3. 判别式评分器:混合损失下的精细评估

动态触发解决了“是否推理”的问题,但一旦进入长路径,模型仍然需要从多条候选推理链中选出最优的一条。传统投票机制在这里的缺陷已经分析过——它无法区分不同质量的推理。

3.1 评分器的设计

E-GRM引入了一个轻量级的判别式评分模块(S_\phi)。它以输入x和推理路径r为输入,输出标量质量分数(\hat{q} = S_\phi(x, r) \in [0,1])。这个分数的核心价值在于:它为每条推理路径提供了一个可比的、连续的质量估计,而不是投票中“是/否”的二元判断。

3.2 混合损失函数

评分器训练采用混合损失:

[
L_{\text{scorer}} = \alpha \cdot \ell_{\text{Huber}}(q, \hat{q}) + (1 - \alpha) \cdot \ell_{\text{Hinge}}(r^+, r^-)
]

其中:

  • Huber损失处理回归任务:它使预测分数(\hat{q})尽可能贴近真实质量标签(q)。相比MSE,Huber对异常值(如错误标注的样本)不敏感,提供更鲁棒的梯度。
  • 铰链损失处理排序任务:给定正例推理路径(r^+)和负例(r^-),铰链损失确保评分器为正例分配足够高的分数,使两者的差值至少超过一个预设间隔(\epsilon)。
  • (\alpha)在(0,1)之间平衡两个目标的权重。

这一设计确保了评分器同时具备校准性(分数能够反映真实的正确率)和区分度(能可靠地将好推理和差推理排序)。

E-GRM详细流程

图2:E-GRM的全流程框架,上方为训练阶段(SFT+偏好优化),下方为推理阶段的动态路由与判别式评分。

4. 两阶段训练机制

4.1 监督微调(SFT):双轨学习

E-GRM的SFT阶段直接利用了动态触发的划分能力。对训练集中的每个样本(x_i)执行M次并行解码并计算共识度。共识度≥τ的归入短路径集(\mathcal{D}{\text{short}}),否则归入长路径集(\mathcal{D}{\text{long}})。

  • 短路径训练:模型直接学习输入到答案的映射(\mathcal{L} = -\log P_\theta(y | x))。
  • 长路径训练:模型学习生成完整推理链(\mathcal{L} = -\log P_\theta(r, y | x)),其中r为推理链的token序列。

这种区分性的训练至关重要——它确保了模型在推理阶段能根据共识度信号灵活切换“快速模式”和“深思模式”。

4.2 扩展GRPO:引入配对奖励信号

E-GRM在标准GRPO(生成式奖励策略优化)的基础上进行了扩展。其核心创新在于奖励函数的设计:

[
R_{\text{pair}}(x, r^+, r^-) = \beta \cdot \mathbb{I}[\text{Ans}(r^+) = y] + (1-\beta) \cdot (S_\phi(x, r^+) - S_\phi(x, r^-))
]

这个奖励函数包含两项:第一项是答案正确性的硬约束(正样本答案必须正确),第二项是判别式评分器给出的质量差异。(\beta)在0到1之间控制两者的权重。

优化目标为:

[
J(\theta) = \mathbb{E}{(x,r^+,r^-)\sim D{\text{pref}}}[R_{\text{pair}}(x, r^+, r^-)] - \lambda \cdot D_{\text{KL}}[\pi_\theta | \pi_{\text{ref}}]
]

其中KL散度项约束策略不偏离SFT参考模型太远,保证训练稳定性。

Coupled-GRPO

图3:Coupled-GRPO的成对奖励信号机制,通过评分器差值驱动策略向高质量推理方向优化。

4.3 推理流程

完整的推理管道为:

  • 1.对输入x执行M次并行解码,计算共识度。
  • 2.若共识度≥τ,直接输出最高频答案,流程结束。
  • 3.若共识度<τ,生成K条候选CoT推理路径。
  • 4.用判别式评分器(S_\phi)对K条候选分别打分。
  • 5.选择分数最高的一条作为最终输出。

5. 实验与结果

5.1 基准测试全景

表2:RM-Bench跨领域评估(32B模型)

领域 Chat Math Code Safety Easy Normal Hard Avg.
E-GRM 32B 75.6 80.0 66.5 94.2 86.0 80.8 70.7 79.2

32B模型在RM-Bench四个领域中均达到或接近最优,尤其在安全领域(94.2%)表现突出。

表3:RMB帮助性与无害性评估

模型 Helpfulness (Pairwise) Harmlessness (Pairwise) Overall
7B 0.756 0.775 0.677
14B 0.791 0.793 0.706
32B 0.807 0.823 0.743
GPT-4o 0.738

E-GRM 32B以0.743的总体得分超越了GPT-4o(0.738),在无害性上达到0.823的突出水平。

表4:RewardBench评估

模型 Chat Chat_Hard Safety Reasoning Overall
7B 94.2 74.8 85.3 87.0 85.3
14B 93.8 80.6 87.2 92.1 88.4
32B 95.4 83.3 92.0 95.4 91.5

在RewardBench上,32B模型取得了91.5%的领先成绩,尤其在推理(95.4%)和安全(92.0%)子集上达成最佳。

5.2 效率数据

在MATH数据集上,E-GRM的效率表现:

  • 58%的样本进入短路径,完全跳过CoT生成。
  • 推理延迟从3.8秒降至2.2秒,相对降低62%。
  • FLOPs从23.7T降至15.7T,相对降低49%。
  • 准确率从75.1%提升至78.4%,未降反升。

5.3 消融实验

表5:组件消融(MATH数据集)

变体 准确率 (%) FLOPs (T) 延迟 (s)
完整E-GRM 78.4 15.7 2.2
移除动态触发 75.2 23.4 3.4
移除判别式评分 72.8 15.9 2.2
基础CoT-GRM 69.1 23.7 3.6

移除动态触发导致FLOPs增加49%、延迟增加55%。移除评分器导致准确率最大降幅5.6%——这说明动态触发主控效率,判别式评主控精度,两者缺一不可。

表6:偏好优化消融

变体 MATH HelpSteer2 RMB Harmlessness
标准GRPO 76.9 81.5 0.765
扩展GRPO 78.4 82.3 0.775

引入配对奖励信号带来了一致性提升,尤其在MATH上提升1.5个百分点。

6. 贡献与讨论

6.1 核心贡献

1.不确定性驱动的动态路由:首次将模型内部不确定性从“置信度评估工具”转变为“计算资源调度信号”,实现了与任务无关的按需推理。

2.混合损失评分器:Huber+铰链的联合训练设计,使评分器兼具校准性和区分度,在奖励信号的保真度上显著超越投票机制。

3.统一的端到端框架:将动态触发、评分和策略优化纳入一个整体,实现了效率与精度的双重突破。

6.2 局限性

1.并行解码开销:M=5次的初始解码带来约5%的额外延迟。

2.阈值依赖性:当前τ=0.8在多个领域效果稳定,但在分布外领域或对抗性场景中可能需要校准。

3.评分器泛化边界:评分器对训练数据中未覆盖的新型推理模式的评估可靠性有待检验。

7. 结论

E-GRM从根本上挑战了“更多推理总是更好”的行业假设。它在MATH数据集上将58%的问题识别为可以快速回答,在复杂问题上通过精细评分确保质量,最终实现了延迟降低62%同时精度提升的成果。

对于正在探索大模型推理效率优化的学者和工程师而言,E-GRM的核心启示在于:智能不仅体现在“能够进行深度推理”,更体现在“知道何时不需要深度推理”


图表附录

扩展GRPO优化目标

附图1:扩展GRPO的奖励函数与优化目标公式。

奖励函数公式

附图2:Coupled-GRPO中奖励函数的具体构造方式。

版权说明:本文为对上述ACL 2026论文的解析,旨在促进学术交流与传播。版权归原作者所有。

目录