GDPO：解决 GRPO 在多奖励 RL 训练中的"优势崩溃"问题

随着大模型能力的不断提升，越来越多的研究开始在RL（强化学习）训练中同时优化多种偏好（如正确性、格式、长度、bug ratio等）。

我们发现多奖励强化学习（multi-reward RL）中经常会遇到训练不稳定的问题，并非主要源于奖励设计或权重冲突，而是优势信号在归一化过程中被“压扁”，导致分辨率下降，提出“advantage collapse”这一关键问题。

传统 GRPO 在多奖励场景下的 group-wise normalization 会使不同奖励组合的样本难以区分，削弱学习方向。

为此，研究提出 GDPO，通过逐奖励解耦归一化保留细粒度优势差异，并在聚合后进行 batch 归一化以稳定尺度。实验表明，GDPO 在工具调用、数学推理和代码推理任务中显著提升了训练稳定性与最终性能。

该工作指出，多目标 RL 的核心在于保持训练信号清晰度，为推理模型与智能体训练提供了更可诊断、可复用的方法论。

1月30日（周五）上午9点，青稞社区和减论平台将组织青稞Talk 第106期，香港科技大学博士候选人、 NVIDIA 研究实习生刘诗扬，直播分享《GDPO：解决 GRPO 在多奖励 RL 训练中的"优势崩溃"问题》。

刘诗扬 (Shih-Yang "Sean" Liu) 现为香港科技大学博士候选人及 NVIDIA 研究实习生。他致力于研究如何减少 AI 模型的训练以及部署开销，研究范畴涵盖参数高效微调(PEFT)与模型优化(Quantization)和利用RL训练模型学习如何减少输出长度。

GDPO：解决 GRPO 在多奖励 RL 训练中的"优势崩溃"问题

1、多奖励 RL 训练挑战与传统 GRPO 算法的局限性
2、通过逐奖励解耦归一化的 GDPO
3、GDPO 的性能验证与多目标 RL 讨论
4、AMA （Ask Me Anything）环节

1月30日(周二)9:00 - 10:00