林俊旸在x上发了一篇长文，特此分享
https://x.com/JustinLin610/status/2037116325210829168

过去这两年，彻底颠覆了我们评估和期待大模型的方式。

OpenAI 的 o1 告诉我们：思考本身就能成为模型一种核心的一等能力，你可以专门为了思考去训练模型，并把这个过程直接展示给用户看。

DeepSeek-R1 则证明了，这种推理利用后训练（post-training）方法依然可以被复现并大规模扩展。

OpenAI 将 o1 描述为一个通过强化学习训练的谋定而后动（think before it answers）模型。DeepSeek 则将 R1 定位为与 o1 具备竞争力的开源推理模型。

这段时期非常关键。但在 2025 年上半年，圈内的焦点几乎全扑在推理式思考上：怎么让模型在推理阶段花更多算力，怎么用更强的奖励信号去训练它们，以及怎么向用户展示或控制这些额外的思考过程。

现在的灵魂拷问是：下半场比什么？

我坚信，答案是智能体式思考（agentic thinking）：为了行动而思考，在真实环境中边交互边思考，并根据真实世界的反馈不断调整计划。

o1 和 R1 到底教会了我们什么？

第一波推理模型让我们明白了一个硬道理：想在语言模型上把强化学习（RL）做大，前提是你得有确定、稳定且能规模化扩展的反馈信号。数学、代码、逻辑以及其他可验证的领域成为了核心，因为在这些场景下的奖励信号远比通用的偏好监督要强烈得多。使得 RL 能够针对正确性而非仅仅是看似合理进行优化。于是，底层基建（Infra）成了决定胜负的关键。

一旦模型被要求在更长的思考链路中进行推理，强化学习就不再是SFT后头的一个轻量级小插件了。它变成了一个庞大的系统工程问题。你需要海量的rollouts、极高吞吐量的验证机制、稳定的策略更新以及高效的生成。推理模型的爆发，表面看是模型算法的胜利，内核其实是基建的胜利。

这是行业的第一个大跨越：算力规模的重心，从预训练向针对推理的后训练转移。

真正的难题，从来不是一句把思考和指令合二为一就能带过的

2025 年初，我们 Qwen 团队里的很多人脑子里都有个宏大的愿景。理想状态下，系统应该把思考和指令执行无缝融为一体。

它应该支持可调节的推理力度，类似于低/中/高推理强度的设置。甚至它能从提示词和上下文中自动推断出合适的推理量，这样模型就能自己决定何时立即作答，何时多思考一会儿，何时又需要在一个真正困难的问题上耗费大量算力。

理念上，这绝对是条明路。Qwen3 就是业内最清晰的公开尝试之一。它推出了混合思考模式，把思考和非思考能力塞进同一个模型里，主打一个思考预算可控。并描述了一个四阶段的后训练管道，其中明确包含了在长思维链冷启动和推理 RL 之后的思考模式融合。

但是，合并说起来容易，做得好却很难。困难在于数据。当人们谈论将思考和指令合并时，他们通常首先想到的是模型端的兼容性：一个权重检查点能否支持两种模式，一个聊天模板能否在两者之间切换，一个服务栈能否暴露出正确的开关。更深层次的问题是，这两种模式的数据分布和行为目标有着巨大的差异。

在试图平衡模型合并与提高后训练数据的质量和多样性时，我们并没有做对所有事情。在修正的过程中，我们密切关注了用户实际上是如何使用思考模式和指令模式的。

一个强大的指令模型通常因为以下特点获得奖励：直接、简洁、格式合规、在重复且大批量的企业任务（如重写、打标签、模板化支持、结构化提取和操作性问答）中保持低延迟。

而一个强大的思考模型则因为以下特点获得奖励：在难题上消耗更多 token、保持连贯的中间结构、探索替代路径，并保留足够多的内部计算以显著提高最终的正确率。

这两种行为特征相互拉扯。如果合并的数据没有经过精心筛选，结果通常是两头都不讨好：思考行为变得嘈杂、臃肿或不够果断；而指令行为则变得不够清脆、不够可靠，并且比商业用户实际想要的更昂贵。

所以在实践中，分离依然是最稳妥的选择。 在 Qwen3 尝试了混合框架后，到了 2025 年后期，我们的 2507 系列模型还是出了互相独立的 Instruct 和 Thinking 版本。因为大把的商业客户就是想要速度快、成本低、极其听话的指令模型来跑业务。把产品线拆开，反而让团队能清清爽爽地解决各自模式的数据和训练问题。

其他实验室选择了相反的路线。Anthropic 公开主张一种整合模型的理念：Claude 3.7 Sonnet 被作为一个混合推理模型推出，用户可以选择普通回答或扩展思考，API 用户也可以设置思考预算。

Anthropic 明确表示，他们认为推理应该是一种整合的能力，而不是一个独立的模型。GLM-4.5 也公开将自己定位为兼具思考和非思考模式的混合推理模型，统一了推理、编码和智能体能力；DeepSeek 后来也在 V3.1 的思考与非思考混合推理中走向了类似的方向。

这里的核心问题是：这种融合，到底是天然有机长在一起，还是生硬的缝合怪？

如果只是把两种人格硬塞进一个模型里，用起来会极其别扭。真正成功的融合，需要一种平滑的发力区间。这应该是一种计算资源的策略分配，而不是一个非黑即白的拨动开关。

为什么 Anthropic 的路线是一次极好的纠偏

Anthropic 在宣传 Claude 3.7 和 4 时极其克制。他们强调综合推理、用户可控的思考预算、真实世界的任务、代码质量，以及后来在长时间思考期间使用工具的能力。

Claude 3.7 被展示为一个具有可控预算的混合推理模型；Claude 4 则对其进行了扩展，允许推理与工具调用交替进行，同时 Anthropic 将编码、长周期任务和智能体工作流作为主要目标。

生成更长的推理轨迹并不会自动让模型变得更聪明。在许多情况下，过多可见的推理过程反而暴露出算力分配的弱点。如果模型试图以同样冗长的方式推理所有事情，它可能是在缺乏优先级判断、缺乏压缩信息的权衡、或者无法采取行动。

Anthropic 的发展轨迹表明了一种更严谨的观点：思考应该由目标工作负载来塑造。 如果目标是写代码，那思考过程就该用来搞清代码结构、拆解任务和排查报错。如果目标是工作流，那思考过程就该用来保证长周期任务的执行到位，而不是写出一篇文采飞扬的内心独白。

这种对目标实用性的死磕，指向了一个宏大的拐点：我们正在从训练模型的时代，过渡到训练智能体（agents）的时代。 所谓智能体，就是一个能制定计划、决定何时出手、熟练使用工具、能听懂环境反馈并随时见招拆招的系统。它的灵魂，就在于和真实世界产生闭环交互。

到底什么是智能体式思考？

这是一种截然不同的优化目标。推理思维通常通过给出最终答案前的内部深思熟虑的质量来评判：模型能解出定理、写出证明、生成正确的代码或通过基准测试吗？

而智能体思考看重的是：在不断与现实环境交互的过程中，模型能不能坚持把事儿往前推进？

核心问题从模型能思考足够长的时间吗？转变为了模型能以维持有效行动的方式思考吗？智能体思维必须处理几个纯推理模型通常可以避免的事情：

决定何时停止思考并采取行动
选择调用哪个工具以及调用的顺序
整合来自环境中嘈杂或不完整的观察结果
在经历失败后修改计划
在许多轮次和多次工具调用中保持连贯性

一句话总结：智能体思维，就是模型通过行动来进行推理。

为什么智能体 RL 的底层基建难如登天？

一旦目标从解决基准测试问题转变为解决交互式任务，强化学习的技术栈就会发生改变。用于经典推理 RL 的基础设施不够用了。在推理 RL 中，你通常可以将轨迹展开视为包含着相对干净的评估器的自闭环轨迹。

而在智能体 RL 中，策略被嵌入到一个更大的配套框架（harness）中：工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API 层、记忆系统和编排框架。环境不再是一个静态的验证器；它成为了训练系统的一部分。

这产生了一个新的系统要求：训练和推理必须更加彻底地解耦。 没有这种解耦，轨迹生成的吞吐量就会崩溃。想象一个必须在实时测试框架中执行生成代码的编码智能体：推理端停滞不前，等待执行结果的反馈；而训练端则因为缺乏完整的轨迹数据而奥嗷嗷待哺，整个管道的 GPU 利用率将远低于经典推理 RL 所能达到的水平。工具延迟、部分可观测性和有状态的环境进一步放大了这些低效性。其结果是，在你达到目标能力水平之前，实验就会变得缓慢且痛苦。

所以，环境本身，成了核心的科研产物。 在 SFT 时代，我们执着于数据的多样性。而在智能体时代，我们应该执着于环境的质量：稳定性、真实性、覆盖率、难度、状态的多样性、反馈的丰富性、抗作弊（防漏洞利用）的能力以及轨迹生成的可扩展性。

构建环境已经开始成为一个真正的创业赛道，而不再是一个副业项目。如果智能体被训练去在类似生产的环境中运行，那么环境就是核心能力栈的一部分。

下一步的终极战场：让思考真正可用

我敢肯定，智能体思维将成为思考的主导形式

它最终可能会取代大部分旧有的静态、独白式的推理思维：即那些试图通过输出越来越多的文本，来弥补缺乏交互能力的极其冗长、孤立的内部轨迹。即便是面对极其困难的数学或编码任务，一个真正先进的系统也应该拥有搜索、模拟、执行、检查、验证和修改的权利。目标是稳健且高效地解决问题。

训练此类系统最艰巨的挑战是奖励作弊（reward hacking）。一旦模型获得了有意义的工具访问权限，奖励作弊就会变得极其危险。带有搜索功能的模型可能会在 RL 期间学会直接去查答案。编码智能体可能会利用代码库中未来的信息、滥用日志或发现使任务失效的捷径。一个存在隐藏漏洞的环境会让策略看起来像超人一样强大，而实际上却是在训练它作弊。

这就是智能体时代比推理时代更加微妙的地方。更好的工具让模型更有用，但也扩大了产生虚假优化的攻击面。我们应该预料到，下一个严重的学术研究瓶颈将来自于：环境设计、评估器的鲁棒性、防作弊协议以及策略与真实世界之间更具原则性的接口。

不过，大方向不会错。带工具的实干型思考，就是比闭门造车的孤立思考有用得多。

同时，这也意味着框架工程（harness engineering）的崛起。 未来的核心智商，将越来越依赖于一套多智能体是如何组织的：一个负责计划和路由工作的编排器、扮演领域专家角色的专用智能体、以及执行狭义任务的子智能体（它们有助于控制上下文、避免污染，并保持不同层次推理之间的隔离）。未来是从训练模型向训练智能体转变，也是从训练智能体向训练整个系统转变。

写在最后

第一波推理浪潮立下了汗马功劳：它向所有人证明了，只要反馈靠谱、算力跟得上，强化学习真的能让大模型产生质的飞跃。

但水面之下，一场更深邃的变革正在发生，从推理思维转向智能体思维：从思考得更久转向为了行动而思考。

训练的核心对象已经转移。它变成了模型+环境系统，或者更具体地说，是智能体以及围绕它的配套框架。这改变了哪些研究产物最重要：模型架构和训练数据固然重要，但环境设计、轨迹生成基础设施、评估器鲁棒性以及多智能体协调的接口也同样重要。

它改变了好的思考的定义：是在现实世界约束下能够维持有效行动的最有用的思考轨迹，而不是最长或最显眼的思考轨迹。

这也改变了竞争优势的来源。在推理时代，优势来自于更好的 RL 算法、更强的反馈信号和扩展性更好的训练管道。在智能体时代，优势将来自于更好的环境、更紧密的训练-服务整合、更强的框架工程，以及实现模型决策与其产生的结果之间闭环的能力。

大模型的下半场是什么？林俊旸：从 Reasoning Thinking 到 Agentic Thinking