2025 Agentic RL 经验总结！这一年的弯路、暴论和下一步思考

作者：乞力马扎罗雪人

https://zhuanlan.zhihu.com/p/1992730229291111674

2025 年无疑是 Agentic RL 的“混战元年”。这一年从零到一做了很多尝试，认知也在不断刷新，这一篇不是严谨的博客或笔记分享，都只是当下的想法。

LLM 很有意思的一点是，3个月/6个月/12个月整个领域的认知就会快速变化，非共识的诞生到共识的时间很短，可以快速验证自己过去某个时间节点的暴论是否成真，极大满足了N人的思考-验证快乐（也是一种训练自己的RL）。

因此在新年开始前，试图总结去年的部分实践和衍生认知（都是不负责任的暴论），等到 2026 年底再回看是否有一些别样滋味。

1、中间形态和降维打击

今年很多 Paper 和 Tricks 可能都只是 RL 初期的产物，本质都是因为特定根本问题没解决的时候打补丁方案，或是为了加速训练而牺牲上限的妥协。

Patch vs. Solution：比如花哨的 Cold Start / Curriculum Learning / Specific PRM 策略，本质上多是为了解决 Sparse Reward 和 Unstable 的问题。

一旦后两者有了更本质的解法，前者无论设计得多么精巧，都将被瞬间“降维打击”（不针对任何人，包括我自己在内，大家都要混口饭吃，难免还要在此多做些工作）。

好在走到那个未来之前，毕竟现在的策略还都处在 naive 阶段还有大量坑可以实践出真知.... moe training / credit assignment / multi-agent rl / exploration strategy / generalizable reward model / process reward 。

相比之下，有两个被提得较少、但对 RL 泛化和效率至关重要的方向：用于更新梯度的 Trajectory Selection & Trajectory Budget Assignment，在有希望的 Trajectory 上的算力/时间分配。这是 RL 区别于 SL 的特有问题。

2、 MDP vs. POMDP

MDP 只是 Toy Task 里的童话，Episode Memory + POMDP 才是现实世界。

Context Management：关于上下文，Manus 的 Append-only (KV Cache) 策略确实很适合应用侧。

模型侧训练时经过这么久一系列 Sliding Windows / Summary / File Offload 的折腾后，我感觉就算存在一种“完美策略”，也只能延缓 Context 相对增长的速度，而无法根本解决复杂任务下的无限上下文问题。

Save-Load 大法：所以回到本质解法，回想人类工作，很少是从头到尾一口气做完的。

本质上，Agentic RL Rollout 学习的应该是不同长度的 Episodic 阶段性任务和组合（Query/State 为前一个 Episode 的产出），而不是每次都从头执行到尾。

这样一来产生新问题，转化为如何合理定义 Milestone 并切分 Episode —— 用游戏术语说，就是学会“Save-Load 大法”。

3. Scaling Law 下半场：环境即一切

和 Pretrain 时代一样，Agentic RL Scaling Law 的上半场卡点是高效基建（异步、offpolicyness 等老生常谈就不多说了【AgentRL】工业级Agentic RL 训练对比选型指南） + 数据（RL Context 下对应的是Env 而不只是 Seed Query 和 trajectory），但下半场则是 Env 自动化和泛化能力的双向飞轮（核心几家大厂可能已经走到这一步了）。

Low Hanging Fruit： Code Sandbox、Search 等相对统一、无限的环境，配合预训练中充分的 RAG/Code 背景知识，是目前价值最高且大家都在卷的方向。但大多数垂域长尾工具（API）不仅统一难，构建训练环境更难。MCP 协议目前的开放度还不足以形成统一生态。

Generative Environment：因为 2，碎片化的模拟环境构建速度跟不上 RL 日益增长的泛化需求成了主要矛盾，对应 RL 时代有 OpenAI Gym / Mujoco / ProcGen，当下似乎还缺少类似的可信生成式环境。

LLM as Env：在 vibe coding / aigc 高度发达的时代，能够以相对统一的方式自行根据描述产生相应的env 代码或界面并作出反馈是完全可预期的方向。更直接的则是 LLM/VLM as Env，LLM/VLM 本身就是最好的通用环境（给出虚拟 Result / Traceback），许多模拟用户来训练对话能力的工作本质也是如此。

4、 Agentic RL 泛化的三个方面

泛化本就是 RL 的难点，更不用说 Agentic RL 这类超广域任务。初步看，Generalizable RL 可能会有几个阶段：

工具泛化 ：能够通过阅读说明书（Context）学会操作未见过的工具，即便形态、命名或版本发生变化。随着数据和环境 Scaling，这一层难度可能不大。

场景泛化 ：需要充分理解模块化技能的组合效用，即使场景外在表现形式发生变化。当开源生态社区的技能组合和其他领域的知识沉淀足够丰富，面向AI的说明书足够多时（如 Anthropic 的 skills.md），这种迁移能力终将推向 AGI。

模态泛化：文本模型的行动力迁移到全模态，类比人类通过全模态感知并执行结果。

也许会有很多细粒度改良trick 的RL 算法昙花一现，也许（其实是大概率）手头的工作都会成为时代的眼泪和弯路，也许接下来会有一年左右“领域模型 vs. 泛化模型”的中间态之争，但好在大家终于都开始相信终局 AGI 会卷走一切，于是眼前的一切都还在 garner 曲线的上升期。

于我而言跌宕的2025 也终于过去了，不知道有没有更加跌宕的 2026，害怕走弯路和歧途，却避免不了不断的随机或稀疏的reward / penalty、POMDP、env shift，人生只是一个没有回头路的单线程 rollout RL，未来涌现在无数弯路之中。