大模型强化学习的Scaling Law

随着 OpenAI o1 和 DeepSeek-R1 的惊艳亮相，强化学习（RL）后训练（Post-training）已成为大模型通往高阶推理能力的必经之路。

但在这一新兴领域，开发者们正面临着缺乏系统的理论指引的困境。不同于预训练阶段成熟的 Scaling Law，RL 后训练阶段的许多关键工程挑战仍悬而未决。

研究人员将相关挑战形式化为了以下三组约束优化问题，以探索模型性能（Test Loss L ，即1-PassRate）与模型参数量 N ，训练计算量 C 和训练数据量 D 之间的关系：

算力受限场景：

{{argmin}_{N,D}}\text{L(N,D) s.t. FLOPs(N,D)=}{C_{const}}

数据受限场景：

{{argmin}_{N,C}}\text{L(N,C) s.t. D=}{D_{const}}

数据复用场景：

{{argmin}_τ}\text{L(τ) s.t. }{D_{unique}}\mathrm{×}τ={D_{\mathrm{total}}}

为了回答这些关键工程问题，中国科学技术大学联合上海人工智能实验室的研究团队带来了一项系统性的实证研究：《Scaling Behaviors of LLM Reinforcement Learning Post-Training: An Empirical Study in Mathematical Reasoning》。文章已经被 ACL 2026 收录！

链接：https://arxiv.org/abs/2509.25300
代码：https://github.com/tanzelin430/The-Scaling-Law-for-Reinforcement-Learning

研究员们基于Qwen与Llama系列模型，在数学推理任务上开展了大量RL post-training实验，系统刻画了模型规模、数据与算力之间的交互关系。

对实验结果的分析表明，RL 后训练的 Test Loss L 与后训练所用资源 X （计算量或数据量）之间呈现对数线性关系，并且可以总结为一个具有性能预测能力的统一的幂律公式

log L(N, X) = −k(N)·log X + E(N)

并给出三点关键发现：

① 强化学习后训练的效果与模型规模、训练资源之间的关系可以被一条统一的幂律公式刻画；
② RL学习效率k(N)随模型规模呈饱和趋势，存在最大理论上限；
③ 在高质量数据受限场景下，性能主要由训练数据总量驱动，而非样本独特性。

本研究还首次定量揭示了强化学习效率的饱和现象：随着模型参数量的增加，学习效率并非线性增长，而是逐渐趋于饱和。这意味着在 RL 阶段，单纯堆砌参数量带来的效率提升是有理论极限的。

5月12日（周二）晚8点，青稞Talk 第124期，谭中科大与上海AI Lab联培博士生泽霖，将直播分享《大模型强化学习的 Scaling Law》。

分享嘉宾

谭泽霖，中科大与上海AI Lab联培博士生，导师为白磊研究员。本文由上海AI Lab青年研究员张晨与牛津大学博士后尹榛菲联合指导，已被ACL 2026 Main Conference接收。

主题提纲

大模型强化学习的 Scaling Law

1、强化学习（RL）后训练的困境
2、核心发现：RL 后训练的幂律公式
3、强化学习效率与模型规模的定量关系
4、数据复用（Data Reuse）的有效性
5、SOTA 模型对比与泛化性测试

直播时间

5月12日（周二）20:00 - 21:00