林俊旸在x上发了一篇长文,特此分享
https://x.com/JustinLin610/status/2037116325210829168

过去这两年,彻底颠覆了我们评估和期待大模型的方式。
OpenAI 的 o1 告诉我们:思考本身就能成为模型一种核心的一等能力,你可以专门为了思考去训练模型,并把这个过程直接展示给用户看。
DeepSeek-R1 则证明了,这种推理利用后训练(post-training)方法依然可以被复现并大规模扩展。
OpenAI 将 o1 描述为一个通过强化学习训练的谋定而后动(think before it answers)模型。DeepSeek 则将 R1 定位为与 o1 具备竞争力的开源推理模型。
这段时期非常关键。但在 2025 年上半年,圈内的焦点几乎全扑在推理式思考上:怎么让模型在推理阶段花更多算力,怎么用更强的奖励信号去训练它们,以及怎么向用户展示或控制这些额外的思考过程。
现在的灵魂拷问是:下半场比什么?
我坚信,答案是智能体式思考(agentic thinking):为了行动而思考,在真实环境中边交互边思考,并根据真实世界的反馈不断调整计划。

o1 和 R1 到底教会了我们什么?
第一波推理模型让我们明白了一个硬道理:想在语言模型上把强化学习(RL)做大,前提是你得有确定、稳定且能规模化扩展的反馈信号。数学、代码、逻辑以及其他可验证的领域成为了核心,因为在这些场景下的奖励信号远比通用的偏好监督要强烈得多。使得 RL 能够针对正确性而非仅仅是看似合理进行优化。于是,底层基建(Infra)成了决定胜负的关键。
一旦模型被要求在更长的思考链路中进行推理,强化学习就不再是SFT后头的一个轻量级小插件了。它变成了一个庞大的系统工程问题。你需要海量的rollouts、极高吞吐量的验证机制、稳定的策略更新以及高效的生成。推理模型的爆发,表面看是模型算法的胜利,内核其实是基建的胜利。
这是行业的第一个大跨越:算力规模的重心,从预训练向针对推理的后训练转移。
真正的难题,从来不是一句把思考和指令合二为一就能带过的
2025 年初,我们 Qwen 团队里的很多人脑子里都有个宏大的愿景。理想状态下,系统应该把思考和指令执行无缝融为一体。
它应该支持可调节的推理力度,类似于低/中/高推理强度的设置。甚至它能从提示词和上下文中自动推断出合适的推理量,这样模型就能自己决定何时立即作答,何时多思考一会儿,何时又需要在一个真正困难的问题上耗费大量算力。
理念上,这绝对是条明路。Qwen3 就是业内最清晰的公开尝试之一。它推出了混合思考模式,把思考和非思考能力塞进同一个模型里,主打一个思考预算可控。并描述了一个四阶段的后训练管道,其中明确包含了在长思维链冷启动和推理 RL 之后的思考模式融合。
但是,合并说起来容易,做得好却很难。困难在于数据。当人们谈论将思考和指令合并时,他们通常首先想到的是模型端的兼容性:一个权重检查点能否支持两种模式,一个聊天模板能否在两者之间切换,一个服务栈能否暴露出正确的开关。更深层次的问题是,这两种模式的数据分布和行为目标有着巨大的差异。
在试图平衡模型合并与提高后训练数据的质量和多样性时,我们并没有做对所有事情。在修正的过程中,我们密切关注了用户实际上是如何使用思考模式和指令模式的。
一个强大的指令模型通常因为以下特点获得奖励:直接、简洁、格式合规、在重复且大批量的企业任务(如重写、打标签、模板化支持、结构化提取和操作性问答)中保持低延迟。
而一个强大的思考模型则因为以下特点获得奖励:在难题上消耗更多 token、保持连贯的中间结构、探索替代路径,并保留足够多的内部计算以显著提高最终的正确率。
这两种行为特征相互拉扯。如果合并的数据没有经过精心筛选,结果通常是两头都不讨好:思考行为变得嘈杂、臃肿或不够果断;而指令行为则变得不够清脆、不够可靠,并且比商业用户实际想要的更昂贵。
所以在实践中,分离依然是最稳妥的选择。 在 Qwen3 尝试了混合框架后,到了 2025 年后期,我们的 2507 系列模型还是出了互相独立的 Instruct 和 Thinking 版本。因为大把的商业客户就是想要速度快、成本低、极其听话的指令模型来跑业务。把产品线拆开,反而让团队能清清爽爽地解决各自模式的数据和训练问题。
其他实验室选择了相反的路线。Anthropic 公开主张一种整合模型的理念:Claude 3.7 Sonnet 被作为一个混合推理模型推出,用户可以选择普通回答或扩展思考,API 用户也可以设置思考预算。
Anthropic 明确表示,他们认为推理应该是一种整合的能力,而不是一个独立的模型。GLM-4.5 也公开将自己定位为兼具思考和非思考模式的混合推理模型,统一了推理、编码和智能体能力;DeepSeek 后来也在 V3.1 的思考与非思考混合推理中走向了类似的方向。
这里的核心问题是:这种融合,到底是天然有机长在一起,还是生硬的缝合怪?
如果只是把两种人格硬塞进一个模型里,用起来会极其别扭。真正成功的融合,需要一种平滑的发力区间。这应该是一种计算资源的策略分配,而不是一个非黑即白的拨动开关。
为什么 Anthropic 的路线是一次极好的纠偏
Anthropic 在宣传 Claude 3.7 和 4 时极其克制。他们强调综合推理、用户可控的思考预算、真实世界的任务、代码质量,以及后来在长时间思考期间使用工具的能力。
Claude 3.7 被展示为一个具有可控预算的混合推理模型;Claude 4 则对其进行了扩展,允许推理与工具调用交替进行,同时 Anthropic 将编码、长周期任务和智能体工作流作为主要目标。
生成更长的推理轨迹并不会自动让模型变得更聪明。在许多情况下,过多可见的推理过程反而暴露出算力分配的弱点。如果模型试图以同样冗长的方式推理所有事情,它可能是在缺乏优先级判断、缺乏压缩信息的权衡、或者无法采取行动。
Anthropic 的发展轨迹表明了一种更严谨的观点:思考应该由目标工作负载来塑造。 如果目标是写代码,那思考过程就该用来搞清代码结构、拆解任务和排查报错。如果目标是工作流,那思考过程就该用来保证长周期任务的执行到位,而不是写出一篇文采飞扬的内心独白。
这种对目标实用性的死磕,指向了一个宏大的拐点:我们正在从训练模型的时代,过渡到训练智能体(agents)的时代。 所谓智能体,就是一个能制定计划、决定何时出手、熟练使用工具、能听懂环境反馈并随时见招拆招的系统。它的灵魂,就在于和真实世界产生闭环交互。
到底什么是智能体式思考?
这是一种截然不同的优化目标。推理思维通常通过给出最终答案前的内部深思熟虑的质量来评判:模型能解出定理、写出证明、生成正确的代码或通过基准测试吗?
而智能体思考看重的是:在不断与现实环境交互的过程中,模型能不能坚持把事儿往前推进?
核心问题从模型能思考足够长的时间吗?转变为了模型能以维持有效行动的方式思考吗?智能体思维必须处理几个纯推理模型通常可以避免的事情:
- 决定何时停止思考并采取行动
- 选择调用哪个工具以及调用的顺序
- 整合来自环境中嘈杂或不完整的观察结果
- 在经历失败后修改计划
- 在许多轮次和多次工具调用中保持连贯性
一句话总结:智能体思维,就是模型通过行动来进行推理。
为什么智能体 RL 的底层基建难如登天?
一旦目标从解决基准测试问题转变为解决交互式任务,强化学习的技术栈就会发生改变。用于经典推理 RL 的基础设施不够用了。在推理 RL 中,你通常可以将轨迹展开视为包含着相对干净的评估器的自闭环轨迹。
而在智能体 RL 中,策略被嵌入到一个更大的配套框架(harness)中:工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API 层、记忆系统和编排框架。环境不再是一个静态的验证器;它成为了训练系统的一部分。
这产生了一个新的系统要求:训练和推理必须更加彻底地解耦。 没有这种解耦,轨迹生成的吞吐量就会崩溃。想象一个必须在实时测试框架中执行生成代码的编码智能体:推理端停滞不前,等待执行结果的反馈;而训练端则因为缺乏完整的轨迹数据而奥嗷嗷待哺,整个管道的 GPU 利用率将远低于经典推理 RL 所能达到的水平。工具延迟、部分可观测性和有状态的环境进一步放大了这些低效性。其结果是,在你达到目标能力水平之前,实验就会变得缓慢且痛苦。
所以,环境本身,成了核心的科研产物。 在 SFT 时代,我们执着于数据的多样性。而在智能体时代,我们应该执着于环境的质量:稳定性、真实性、覆盖率、难度、状态的多样性、反馈的丰富性、抗作弊(防漏洞利用)的能力以及轨迹生成的可扩展性。
构建环境已经开始成为一个真正的创业赛道,而不再是一个副业项目。如果智能体被训练去在类似生产的环境中运行,那么环境就是核心能力栈的一部分。
下一步的终极战场:让思考真正可用
我敢肯定,智能体思维将成为思考的主导形式
它最终可能会取代大部分旧有的静态、独白式的推理思维:即那些试图通过输出越来越多的文本,来弥补缺乏交互能力的极其冗长、孤立的内部轨迹。即便是面对极其困难的数学或编码任务,一个真正先进的系统也应该拥有搜索、模拟、执行、检查、验证和修改的权利。目标是稳健且高效地解决问题。
训练此类系统最艰巨的挑战是奖励作弊(reward hacking)。一旦模型获得了有意义的工具访问权限,奖励作弊就会变得极其危险。带有搜索功能的模型可能会在 RL 期间学会直接去查答案。编码智能体可能会利用代码库中未来的信息、滥用日志或发现使任务失效的捷径。一个存在隐藏漏洞的环境会让策略看起来像超人一样强大,而实际上却是在训练它作弊。
这就是智能体时代比推理时代更加微妙的地方。更好的工具让模型更有用,但也扩大了产生虚假优化的攻击面。我们应该预料到,下一个严重的学术研究瓶颈将来自于:环境设计、评估器的鲁棒性、防作弊协议以及策略与真实世界之间更具原则性的接口。
不过,大方向不会错。带工具的实干型思考,就是比闭门造车的孤立思考有用得多。
同时,这也意味着框架工程(harness engineering)的崛起。 未来的核心智商,将越来越依赖于一套多智能体是如何组织的:一个负责计划和路由工作的编排器、扮演领域专家角色的专用智能体、以及执行狭义任务的子智能体(它们有助于控制上下文、避免污染,并保持不同层次推理之间的隔离)。未来是从训练模型向训练智能体转变,也是从训练智能体向训练整个系统转变。
写在最后
第一波推理浪潮立下了汗马功劳:它向所有人证明了,只要反馈靠谱、算力跟得上,强化学习真的能让大模型产生质的飞跃。
但水面之下,一场更深邃的变革正在发生,从推理思维转向智能体思维:从思考得更久转向为了行动而思考。
训练的核心对象已经转移。它变成了模型+环境系统,或者更具体地说,是智能体以及围绕它的配套框架。这改变了哪些研究产物最重要:模型架构和训练数据固然重要,但环境设计、轨迹生成基础设施、评估器鲁棒性以及多智能体协调的接口也同样重要。
它改变了好的思考的定义:是在现实世界约束下能够维持有效行动的最有用的思考轨迹,而不是最长或最显眼的思考轨迹。
这也改变了竞争优势的来源。在推理时代,优势来自于更好的 RL 算法、更强的反馈信号和扩展性更好的训练管道。在智能体时代,优势将来自于更好的环境、更紧密的训练-服务整合、更强的框架工程,以及实现模型决策与其产生的结果之间闭环的能力。