GDPO:解决 GRPO 在多奖励 RL 训练中的"优势崩溃"问题

  • 发布于 2026-01-20
  • 4 次阅读

直播平台

视频号

相关资源

演示文稿 (PPT)

直播配套幻灯片

暂未提供

随着大模型能力的不断提升,越来越多的研究开始在RL(强化学习)训练中同时优化多种偏好(如正确性、格式、长度、bug ratio等)。

我们发现多奖励强化学习(multi-reward RL)中经常会遇到训练不稳定的问题,并非主要源于奖励设计或权重冲突,而是优势信号在归一化过程中被“压扁”,导致分辨率下降,提出“advantage collapse”这一关键问题。

传统 GRPO 在多奖励场景下的 group-wise normalization 会使不同奖励组合的样本难以区分,削弱学习方向。

为此,研究提出 GDPO,通过逐奖励解耦归一化保留细粒度优势差异,并在聚合后进行 batch 归一化以稳定尺度。实验表明,GDPO 在工具调用、数学推理和代码推理任务中显著提升了训练稳定性与最终性能。

该工作指出,多目标 RL 的核心在于保持训练信号清晰度,为推理模型与智能体训练提供了更可诊断、可复用的方法论。

1月30日(周五)上午9点,青稞社区和减论平台将组织青稞Talk 第106期,香港科技大学博士候选人、 NVIDIA 研究实习生刘诗扬,直播分享《GDPO:解决 GRPO 在多奖励 RL 训练中的"优势崩溃"问题》。

分享嘉宾

刘诗扬 (Shih-Yang "Sean" Liu) 现为香港科技大学博士候选人及 NVIDIA 研究实习生。他致力于研究如何减少 AI 模型的训练以及部署开销,研究范畴涵盖参数高效微调(PEFT)与模型优化(Quantization)和利用RL训练模型学习如何减少输出长度。

主题提纲

GDPO:解决 GRPO 在多奖励 RL 训练中的"优势崩溃"问题

1、多奖励 RL 训练挑战与传统 GRPO 算法的局限性
2、通过逐奖励解耦归一化的 GDPO
3、GDPO 的性能验证与多目标 RL 讨论
4、AMA (Ask Me Anything)环节

直播时间

1月30日(周二)9:00 - 10:00