纯干货！工业场景下，LLM Agent RL的一些实践感悟

最近几个月在各种场景上做了大量的agent RL训练，例如search agent，数据分析agent 等等。既有小的dense model，也有大的moe。有单一数据场景，有多源合板数据场景。有失败的经历，也有成功的经历。这里抽空分享下一些感悟，比较乱，随便看看就行:

1、稳定性是工业级场景下RL训练最重要的前提。好的RL pratice 应当使得整个pipeline 能够长时间稳定高效的训练，从而实现scaling。稳定性较差，训练不稳定，会带来极大的时间成本和实验成本。最近几个月，在稳定性上做了不少探索，包括训推mismatch，ppo-ewma等相关的对比实验。部分已经作为默认配置参与我们实际的agentic RL训练。

2、相比于Reasoning RL，agentic RL 更有传统RL味道。如果把RL分为交互环境, reward, 算法三个部分，每一部分的重要性程度，reasoning RL是 : 算法 > reward > 环境，但是在实际agent场景下，则反过来：环境 > reward > 算法。

3、没有稳定的进行工具调用的RL训练环境，则会带来极大的实验成本，也影响最终性能上限。经过迭代，我们的RL训练总是会监控各种工具调用失败的比例。在进行新场景的RL训练前，会优先解决工具调用的问题，确保环境能够支持大规模工具调用并发下的RL训练。

4、在部分agent场景下，由于没有math/code 等可验证reward，使用llm-as-judge进行rewarding，非常容易出现【意向不到】reward hacking。曾经在一个月内，出现三次测试集大幅上涨，但是最终发现都是reward hacking。

5、减少人手工reward的设计，如果有必要，也要进行不断迭代，因为非常容易出现reward hacking。

6、对齐训练评测环境非常重要。如果无法对齐（比如评测一定要使用其他工具), 确保评测环境的分数是正常的，避免因为非训练原因导致的评测分数无法提升（例如评测换了工具，导致模型输出截断过多），从而使得评测分数无法正确反映训练效果。

7、在环境和reward 都有好的监控并且提前进行了诸如压力测试确保能够ready后，才有必要消融数据和算法。

8、当有足够的GPU资源和卡时时，ppo-ewma 可能是一个比 on-policy 分数摸高更好的选择。同时也应该增加batch size和group size，增大RL compute，从而增加学习效率与探索。

9、RL grokking 现象值得被研究，这几个月实验观察到了非常多的RL grokking现象，on-policy实验尤其明显。

10、工具层面的探索非常重要。RL训练中如果环境给了agent多个必要的工具或文件，那么需要监控工具和文件的调用情况。少或者不调用某个工具或文件，可能会影响模型能力训练上限。

11、更大模型的上的RL训练泛化会更快。在小模型上各种trick折腾RL，可能最后换来的都是一些对更大模型训练无用的小招。

12、做continue RL，即使entropy 起点很低，不一定有必要上clip higher等trick 加强entropy，只要选择好的数据, 模型会天然的退概率，增加探索，entropy越训越高。