随着大语言模型逐步从「单轮问答」走向「真实环境中的持续交互」，各种各样如OpenClaw的agentic applications正在成为当前研究与产业共同关注的核心方向。无论是在网页环境中进行信息检索与操作，还是完成代码生成与调试、个性化推荐等复杂决策任务.

这些场景都要求LLM agent具备主动推理 (active reasoning) 能力：在与环境的多轮交互中主动获取信息、持续更新对潜在任务状态的判断，并据此规划后续行动。

最近，越来越多工作开始使用强化学习训练LLM agents。但一个在实践中反复出现、却仍缺乏系统理论解释的现象是：随着交互轮次增加，模型可能越做越偏；行动仍在继续，但对任务真正有帮助的进展却越来越少。

比如，它可能会不断重复无效动作、忽略已有反馈、或者在错误的理解上越走越远。这类错误不仅会影响单条轨迹的推理质量，同样也会对训练带来影响。

具体地，它会污染强化学习中的credit assignment，最终导致训练不稳定、探索不足，甚至学出一个表面会交互、实则不会主动推理的 agent。

针对这一问题，香港中文大学、字节跳动和佐治亚理工学院的研究者提出了论文 《Reducing Belief Deviation in Reinforcement Learning for Active Reasoning of LLM Agents》。

这项工作从 belief tracking 的角度系统分析了 LLM agent 在多轮主动推理中的训练失败机制，并提出了一个非常简单但很有效的方法：T3 （Truncating Belief-Trapped Trajectories）。

论文已发表于ICLR 2026并入选oral口头报告（比例约1-2%） ：

论文标题：Reducing Belief Deviation in Reinforcement Learning for Active Reasoning of LLM Agents
项目代码：https://github.com/unimpor/T3
论文链接：https://openreview.net/forum?id=r8hzDA3pUY

引言：为什么 RL 训练出来的 agent 还是不会主动推理？

最近，越来越多工作开始关注LLM agent的多轮推理能力与各类agentic application。和传统的单轮问答不同，这类任务最大的挑战在于：agent往往无法在一开始就获得完成任务所需的全部信息，而必须在与外部环境的连续交互中，逐步收集线索、更新判断，并推进任务完成。

这类能力可以概括为active reasoning：agent在信息不完备的情况下，能够主动采取有助于减少不确定性、推进决策的动作。具体来说，通常包括：

当前可见信息是不完整的；
agent需要主动采取行动，例如提问、调用工具、检索信息、执行操作等；
外部环境会根据这些动作返回新的反馈或观测；
agent必须结合历史交互，持续更新对当前任务状态的理解，并据此决定下一步行动。

从直觉上看，强化学习似乎是训练这类 agent 的自然选择：outcome-based reward应该可以指导agent逐步学会采取更有信息价值的行动，并形成更高效的探索与决策策略。然而在实际系统中，这一过程远没有如此理想化。

无论是在computer-using agent，coding agent，还是通用对话 agent 的长程交互中，人们都反复观察到类似现象：随着交互的持续进行，agent的推理质量往往不升反降。

例如，在一些实际使用体验中，agent可能会围绕某个局部错误假设展开多轮无效行动：在computer-using agent 场景中，这可能表现为对界面状态、目标位置或下一步操作判断出现偏差，进而在网页或桌面环境中反复执行无效操作；在coding agent中，agent有时会在一次错误修改后持续沿着错误调试路径迭代；在长对话场景中，agent也可能过早形成某种判断，并在后续交互中对新反馈整合不足，导致对问题的理解逐渐偏离。

随着交互轮次增加，这类低信息量或无关行动往往不断累积，使trajectory出现越来越长的“无效尾部”。更进一步，这种现象不仅影响单次任务完成质量，还会在强化学习训练中表现为 reward 波动加剧、策略更新不稳定，甚至在后期出现性能的崩坏。

这篇论文关注的核心问题可以概括为：

为什么 LLM agent 在多轮主动推理中容易逐步偏离正确判断，并在后续交互中难以自行纠正？强化学习为什么没有自动修复这一过程？

作者的核心观点是：关键在于， agent在交互过程中对潜在任务状态形成的内部判断会持续发生偏移，并对后续决策产生连锁影响。论文将这一现象形式化为 belief deviation，并进一步分析其如何通过影响 trajectory 结构，系统性干扰强化学习中的 credit assignment。

从 belief tracking 视角形式化主动推理

在这篇工作里，作者将active reasoning建模为一个POMDP (Partially Observable Markov Decision Process)。其中的关键是：

Agent必须在部分可观测的环境中，维护对潜在真实任务状态的belief 。

理想情况下，一个oracle agent可以基于历史观测做出Bayesian的belief update；但真实LLM agent并不能显式维护这样的posterior，它只能依靠自己的内部推理去近似belief tracking过程。

这就带来一个根本问题：LLM的belief update 往往是不精确的，而且这种误差会随着偏离加剧而不断放大。

作者首先用一个truth-anchored potential来度量 agentic task的完成进度：

Ψ(b)=−log⁡b(s^⋆)

其中s^⋆代表着agent不可见的真实潜在任务状态。直观来说，b(s^⋆)越小，说明agent越不相信真相，Ψ(b) 就越大；而当模型越来越接近真实状态时，Ψ(b) 才会下降。

围绕这个量，论文定义了belief update discrepancy，衡量LLM的更新规则相对于 Bayesian update的误差，并进一步提出一个关键假设（原文Assumption 1。作者对这一理论假设进行了实验验证：见原文Figure2a/b&Appendix C）：

当belief偏差足够大时，LLM 的更新误差会至少线性增长。

这意味着，一旦agent已经理解偏了，后续每一步更新都有可能让它偏得更厉害，而不是自己纠正回来。

Belief Trap Region （BTR）：Agentic任务进展为何停滞？

基于上述形式化，作者提出了一个关键概念：Belief Trap Region（BTR，原文 Definition 1 ）。

BTR 可以直观理解为一个认知陷阱区域：

agent已经偏离了真实问题状态；
后续动作几乎不再带来有效信息增益；
推理进展停滞甚至恶化；
轨迹尾部变得越来越长、越来越无信息量。

论文证明（原文Theorem 1），在若干温和的假设下，一旦 belief deviation 累积到一定程度，LLM agent 与环境的交互将不再带来有效任务进展，而是进入一种进展停滞、且难以自行逃离的状态。进入这里之后，agent虽然还在继续生成 token、继续和环境交互，但这些行为对真正解决问题已经帮助很小。

论文第一页给了一个很形象的例子：在一个 situation puzzle 任务中（即通过多轮提问逐步还原一个隐藏情境或事件逻辑的推理游戏，类似“海龟汤”游戏），agent不断围绕“是否存在双胞胎”这一假设做重复确认，而没有继续探索更关键的因果线索。作者指出，这类现象本质上反映了agent在错误belief上持续展开交互，即所谓的belief-trap dynamics。

更严重的问题：BTR 会污染 RL 的 credit assignment

如果belief trapping只影响单条轨迹的推理质量，那么它更多只是inference-time failure。然而本文进一步指出，其更关键的影响发生在训练阶段：这些无信息的长尾轨迹，会反过来破坏强化学习本身。

论文考察了outcome-based RL中的advantage estimation 行为，特别是对GAE advantage 的影响。作者证明，当trajectory的后部进入BTR后，这一段低信息量、低任务进展的tail会污染credit assignment过程。现总结如下（详见原文Theorem 2，作者同时对这一理论进行了实验验证，见原文Figure 2c/d&Appendix C）：

在进入 BTR 之前的轨迹前段，往往包含一些本来具有价值的exploratory actions，这些动作可能确实在推动 agent 更接近真实状态；
一旦轨迹在后续阶段进入BTR，尾部uninformative tail 的累积负向影响会污染前缀探索性动作的credit，即对其advantage形成negative drift；
在此情况下，policy optimization 可能会将这些原本有益的前缀动作误判为低质量甚至“坏”的行为并加以惩罚；
长期来看，这种机制会系统性地抑制探索，使得 policy逐渐保守，使agent无法提升主动推理能力。

至此，论文明确指出了belief deviation→BTR → advantage inversion→policy optimization失真这一条机制链路。

T3：截断 belief-trapped trajectory tail

既然问题集中出现在进入BTR之后的低信息量tail，一个自然的思路是：

当轨迹已经进入 belief-trapped regime 时，不再让其后续部分参与策略优化。

这正是T3的基本思想。T3全称为Truncating Belief-Trapped Trajectories，其做法并不复杂：

在训练过程中监控trajectory是否出现持续性的 progress stall；
一旦判断轨迹已经进入belief-trapped状态，即提前截断该 trajectory；
仅保留前面仍具有信息价值的prefix用于后续的 policy optimization。

这一设计的目标并不是简单缩短rollout，而是更精确地控制用于策略更新的trajectory support，从而避免低信息量tail污染前缀动作的advantage estimation。

从这个角度看，T3可以理解为一种非常轻量的训练控制机制：它不要求修改PPO/GRPO/GSPO的核心更新公式，而是通过剔除进入belief-trapped regime之后的尾部片段，改善策略梯度所依赖的credit assignment质量。

从理论对象到可操作规则：如何判断轨迹是否进入 BTR

T3 真正的难点不在于“截断”本身，而在于如何在实际训练中检测和识别agent已经进入了BTR 。这主要涉及两个问题。

1. Belief state 本身不可直接观测

理论分析中的 b_t、Ψ(b_t) 以及进入BTR的精确时间都是隐变量，现实中的LLM并不会显式输出 belief distribution，因此无法直接基于理论量进行判断。为此，我们可以转而寻找一些更容易直接观测到的信号。实验结果表明，其实并不需要对BTR进行精确检测；相反，只要利用一些较为简单的proxy信号，对后续大部分uninformative tails 进行截断，就已经足以有效鼓励 agent 提升其active reasoning能力。

2. 不同任务的 hypothesis space 结构差异很大

有些任务具有离散、可枚举的candidate set；有些任务是开放式语义空间；还有些任务对应连续latent variable。因而，“任务进展”的具体可观测形式本身是task-dependent的。

针对这一问题，作者提出了一个统一但可实例化的 T3 condition （原文 Definition 2 ）：

若在最近一个窗口内，如果任务的假设空间未体现出足够的收缩，则判定该trajectory已进入belief-trapped regime，并触发截断。

这个定义本身是task-agnostic principle，但具体实现可以借助任务结构设计proxy。同时，为了增强T3 的在不同任务结构下的适用性，文章还探索了general belief-trap detector设计，具体可参见 Appendix E。

实验设置：5 个主动推理任务，覆盖离散、开放和连续假设空间

论文在4个数据集、5个主动推理任务上系统评测了T3，包括：

SituationPuzzles (SP)：模仿了“海龟汤”游戏，agent 会先看到一个看似矛盾的 puzzle 描述，然后通过连续提出猜想询问 judge，最终给出对整个情境的完整解释；正文中，T3 将连续收到 judge “Unknown” 的回复视为低信息量信号并进行截断。

GuessNumbers (GN) 是交互式数字推理任务：目标是猜出一个未知的a位数字。每一轮agent直接给出一个猜测，环境返回基于agent当前猜测的结构化反馈。T3在该任务中直接监控当前guess是否已经违背历史反馈对应的候选集约束；一旦guess落到当前候选集之外，就立即截断。

CircuitDecoding (CD) ：每个样本给出一个有限候选池，里面包含若干布尔电路结构，最终目标是识别K个隐藏的真实电路索引。agent 需要在多轮交互中从1...K中选择某个位置并输入一个二进制配置，环境返回对应输出；T3 监控候选池大小是否继续收缩；若持续不缩小，就认为后续查询已难以继续减少不确定性并进行截断。

PreferenceEstimation (PE) ：任务通过交互估计一个隐藏的用户偏好向量。每部电影带有若干 attribute score，用户对电影的偏好由隐藏向量与属性分数的加权和决定。每一轮 agent 都要同时输出当前的偏好向量估计，以及一个关于两部 reference movies 的 pairwise comparison 问题；judge只回答 “Yes / No / Equal”。正文主实验里，T3 通过 agent 显式输出的向量估计来近似 belief progress：若该估计与真实偏好的相似度连续下降，就触发截断。论文同时在 Appendix D.3 进一步给出一个不依赖 ground truth preference 的替代版本：只监控相邻轮次向量估计的变化幅度是否在滑动窗口内持续过小。

MovieRecommendation (MR) 建立在PE之上：前半段仍是preference elicitation交互，最后一轮不再继续提问，而是要求agent用自己当前估计的 preference为用户推荐新的电影。也就是说，MR评估的不只是交互期内的偏好恢复，还考察这种inferred user model 能否泛化到未见候选上。正文中，MR 与 PE 共用同一套T3 proxy。

可以看到，T3并不依赖统一的belief表示，而只需要定义一个简单的 progress proxy 来近似检测推理是否进入低信息量阶段，因此在实践中具有很强的可移植性与易集成特性。

主要RL训练基于Qwen2.5-7B-Instruct，并结合PPO、GRPO、GSPO三种常用优化算法。训练为 200 steps，属于一个相对克制但足够观察训练动态的规模设定。从环境形式来看：

GN、CD、PE、MR的反馈是rule-based；

SP的反馈由Qwen2.5-14B-Instruct 扮演 user simulator。

这也使得论文涵盖了多种active reasoning setting，在不同结构的reasoning problems上测试T3的适用性：

有限、可枚举 hypothesis space；
开放式、难枚举 hypothesis space；
连续 latent state setting。

代码已开源：

https://github.com/unimpor/T3

作者正在进一步探索 T3 在更具现实复杂度的 agentic benchmarks（如 tau2-bench）中的表现与适用性，并将在开源仓库中同步进展。

整体结果：T3 稳定提升性能，也显著减少无效 token

主结果非常清晰：

在几乎所有设置下，T3 都能稳定优于 vanilla RL。

除了最终指标外，更值得关注的是训练动态：

1. 训练更稳定

论文中的reward curve显示，vanilla RL往往存在明显震荡，甚至在部分收敛后再次塌陷；而加入T3后，训练曲线更平滑、更稳定，reward提升更接近单调增长。

2. Token 效率更高

T3 虽然会在早期截断一些trajectory，但正因为删掉了大量无信息tail，整体 token 消耗反而更低，token-efficiency更高。

3. 对不同 RL 算法都有效

PPO、GRPO、GSPO都能从T3中获益。这说明 T3 不是绑定某种特定optimization trick，而更像是一个上层训练原则。

OOD 泛化性与消融实验分析：T3 的收益并不依赖于某个特定设置

论文进一步进行了较完整的OOD泛化性与ablation分析。

OOD泛化性：更难的 hypothesis space 下仍然受益

在CD任务中，作者增加candidate pool size 和 hidden circuit size；在PE中，改变 reference movie 的数量与采样分布。结果显示，T3在所有这些OOD场景下都持续优于vanilla PPO。这说明T3确实在更困难的reasoning regimes中减轻了belief trapping。

Ablation Studies

作者系统比较了不同窗口长度k、不同proxy规则，以及随机截断baseline。一个很有意思的发现是：

适度随机截断有时也会带来有限的改进；
但收益最稳定、效果最好的仍然是那些更准确捕获 belief-trap的truncation rule；
过松的条件无法有效过滤低信息量tail，过严的条件又会过早删除仍然有价值的exploration prefix。

这些结果说明：

问题确实在无信息长尾上，并且T3 的有效性并不来自粗暴缩短轨迹，而是更有效地估计 “什么时候模型已经开始进入belief-trap”。

模型规模分析：较强模型通常获得更显著收益

论文还比较了不同规模和架构的模型，包括Qwen2.5 3B/7B/14B，以及LLaMA-3.1-8B与DeepSeek-R1-Distill-LLaMA-8B。

整体趋势是：

3B模型收益有限；
7B、14B模型收益更明显；
一些reasoning能力更强的架构，往往能更充分利用T3。

针对这一现象，作者给出了一个贴合本文理论的假说。若底层模型的 belief tracking 能力本身过弱，则轨迹可能很快进入严重偏离状态，此时即便执行 truncation，也难以保留足够高质量的 informative prefix。相反，对于具有一定多轮推理基础的模型，T3 更能够发挥“保护前缀有效探索”的作用。

这项工作的意义与启示

从更高层面看，这篇工作传递了几个非常重要的 takeaways。

首先，它对多轮主动推理中的常见failure mode 给出了一个可分析的理论刻画。以往在交互过程中出现的冗余行动、围绕局部错误假设持续展开等现象，更多被视为经验观察；

本文将其系统化为belief deviation与Belief Trap Region（BTR），使这些问题首次成为可以建模、分析并进行训练干预的对象。

其次，论文解释了一个长期困扰RL for LLM agents的现象，即outcome-based reward 并不会自动奖励“有信息量的探索”。

Belief-trapped tails的存在会污染credit assignment，使其产生系统性偏差。这表明，active reasoning的困难不仅来自 sparse reward，本质上也来自belief dynamics 对策略学习过程的干扰。

更进一步，T3所提出的解决思路非常轻量：它不依赖额外reward model，也不需要重写PPO、GRPO 或 GSPO的优化机制，而是通过控制trajectory中用于策略更新的有效片段来改善训练信号质量。这种设计使其具有较强的可集成性，也为在更复杂agentic settings中应用提供了现实可行性。

从更长远的角度看，这项工作还指向了一个更一般的问题：

是否存在跨任务、较为通用的 belief-collapse detector，可用于大规模 long-horizon active reasoning agents 的训练控制？

论文Appendix E已经初步探索了若干可能路径，如基于语义冗余的检测等。这些方向都表明，控制belief dynamics 可能成为未来多轮 RL for LLM agents 中与 reward design、exploration strategy 同样关键的一条研究主线。

作者也正在进一步探索T3在更具现实复杂度的 agentic benchmarks（如 tau2-bench）中的表现与适用性，并将在开源仓库中持续更新相关进展。

欢迎查阅论文与代码以获取更多技术细节。

ICLR'26 Oral | 当 LLM Agent 在多轮推理中迷失时：T3 如何让强化学习重新学会主动推理