作者:乞力马扎罗雪人
https://zhuanlan.zhihu.com/p/1992730229291111674
2025 年无疑是 Agentic RL 的“混战元年”。这一年从零到一做了很多尝试,认知也在不断刷新,这一篇不是严谨的博客或笔记分享,都只是当下的想法。
LLM 很有意思的一点是,3个月/6个月/12个月整个领域的认知就会快速变化,非共识的诞生到共识的时间很短,可以快速验证自己过去某个时间节点的暴论是否成真,极大满足了N人的思考-验证快乐(也是一种训练自己的RL)。
因此在新年开始前,试图总结去年的部分实践和衍生认知(都是不负责任的暴论),等到 2026 年底再回看是否有一些别样滋味。
1、中间形态和降维打击
今年很多 Paper 和 Tricks 可能都只是 RL 初期的产物,本质都是因为特定根本问题没解决的时候打补丁方案,或是为了加速训练而牺牲上限的妥协。
Patch vs. Solution: 比如花哨的 Cold Start / Curriculum Learning / Specific PRM 策略,本质上多是为了解决 Sparse Reward 和 Unstable 的问题。
一旦后两者有了更本质的解法,前者无论设计得多么精巧,都将被瞬间“降维打击”(不针对任何人,包括我自己在内,大家都要混口饭吃,难免还要在此多做些工作)。
好在走到那个未来之前,毕竟现在的策略还都处在 naive 阶段还有大量坑可以实践出真知.... moe training / credit assignment / multi-agent rl / exploration strategy / generalizable reward model / process reward 。
相比之下,有两个被提得较少、但对 RL 泛化和效率至关重要的方向:用于更新梯度的 Trajectory Selection & Trajectory Budget Assignment,在有希望的 Trajectory 上的算力/时间分配。这是 RL 区别于 SL 的特有问题。
2、 MDP vs. POMDP
MDP 只是 Toy Task 里的童话,Episode Memory + POMDP 才是现实世界。
Context Management: 关于上下文,Manus 的 Append-only (KV Cache) 策略确实很适合应用侧。
模型侧训练时经过这么久一系列 Sliding Windows / Summary / File Offload 的折腾后,我感觉就算存在一种“完美策略”,也只能延缓 Context 相对增长的速度,而无法根本解决复杂任务下的无限上下文问题。
Save-Load 大法: 所以回到本质解法,回想人类工作,很少是从头到尾一口气做完的。
本质上,Agentic RL Rollout 学习的应该是不同长度的 Episodic 阶段性任务和组合(Query/State 为前一个 Episode 的产出),而不是每次都从头执行到尾。
这样一来产生新问题,转化为如何合理定义 Milestone 并切分 Episode —— 用游戏术语说,就是学会“Save-Load 大法”。
3. Scaling Law 下半场:环境即一切
和 Pretrain 时代一样,Agentic RL Scaling Law 的上半场卡点是高效基建(异步、offpolicyness 等老生常谈就不多说了【AgentRL】工业级Agentic RL 训练对比选型指南) + 数据(RL Context 下对应的是Env 而不只是 Seed Query 和 trajectory),但下半场则是 Env 自动化和泛化能力的双向飞轮(核心几家大厂可能已经走到这一步了)。
Low Hanging Fruit: Code Sandbox、Search 等相对统一、无限的环境,配合预训练中充分的 RAG/Code 背景知识,是目前价值最高且大家都在卷的方向。但大多数垂域长尾工具(API)不仅统一难,构建训练环境更难。MCP 协议目前的开放度还不足以形成统一生态。
Generative Environment: 因为 2,碎片化的模拟环境构建速度跟不上 RL 日益增长的泛化需求成了主要矛盾,对应 RL 时代有 OpenAI Gym / Mujoco / ProcGen, 当下似乎还缺少类似的可信生成式环境。
LLM as Env: 在 vibe coding / aigc 高度发达的时代,能够以相对统一的方式自行根据描述产生相应的env 代码或界面并作出反馈是完全可预期的方向。更直接的则是 LLM/VLM as Env,LLM/VLM 本身就是最好的通用环境(给出虚拟 Result / Traceback),许多模拟用户来训练对话能力的工作本质也是如此。
4、 Agentic RL 泛化的三个方面
泛化本就是 RL 的难点,更不用说 Agentic RL 这类超广域任务。初步看,Generalizable RL 可能会有几个阶段:
工具泛化 : 能够通过阅读说明书(Context)学会操作未见过的工具,即便形态、命名或版本发生变化。随着数据和环境 Scaling,这一层难度可能不大。
场景泛化 : 需要充分理解模块化技能的组合效用,即使场景外在表现形式发生变化。当开源生态社区的技能组合和其他领域的知识沉淀足够丰富,面向AI的说明书足够多时(如 Anthropic 的 skills.md),这种迁移能力终将推向 AGI。
模态泛化: 文本模型的行动力迁移到全模态,类比人类通过全模态感知并执行结果。
也许会有很多细粒度改良trick 的RL 算法昙花一现,也许(其实是大概率)手头的工作都会成为时代的眼泪和弯路,也许接下来会有一年左右“领域模型 vs. 泛化模型”的中间态之争,但好在大家终于都开始相信终局 AGI 会卷走一切,于是眼前的一切都还在 garner 曲线的上升期。
于我而言跌宕的2025 也终于过去了,不知道有没有更加跌宕的 2026,害怕走弯路和歧途,却避免不了不断的随机或稀疏的reward / penalty、POMDP、env shift,人生只是一个没有回头路的单线程 rollout RL,未来涌现在无数弯路之中。