1. 首页
  2. 精选文章
  3. ICLR'26 Oral | 当 LLM Agent 在多轮推理中迷失时:T3 如何让强化学习重新学会主动推理

ICLR'26 Oral | 当 LLM Agent 在多轮推理中迷失时:T3 如何让强化学习重新学会主动推理

  • 发布于 2026-04-04
  • 2 次阅读

随着大语言模型逐步从「单轮问答」走向「真实环境中的持续交互」,各种各样如OpenClaw的agentic applications正在成为当前研究与产业共同关注的核心方向。无论是在网页环境中进行信息检索与操作,还是完成代码生成与调试、个性化推荐等复杂决策任务.

这些场景都要求LLM agent具备主动推理 (active reasoning) 能力:在与环境的多轮交互中主动获取信息、持续更新对潜在任务状态的判断,并据此规划后续行动。

最近,越来越多工作开始使用强化学习训练LLM agents。但一个在实践中反复出现、却仍缺乏系统理论解释的现象是:随着交互轮次增加,模型可能越做越偏;行动仍在继续,但对任务真正有帮助的进展却越来越少。

比如,它可能会不断重复无效动作、忽略已有反馈、或者在错误的理解上越走越远。这类错误不仅会影响单条轨迹的推理质量,同样也会对训练带来影响。

具体地,它会污染强化学习中的credit assignment,最终导致训练不稳定、探索不足,甚至学出一个表面会交互、实则不会主动推理的 agent。

针对这一问题,香港中文大学、字节跳动和佐治亚理工学院的研究者提出了论文 《Reducing Belief Deviation in Reinforcement Learning for Active Reasoning of LLM Agents》

这项工作从 belief tracking 的角度系统分析了 LLM agent 在多轮主动推理中的训练失败机制,并提出了一个非常简单但很有效的方法:T3 (Truncating Belief-Trapped Trajectories)

论文已发表于ICLR 2026并入选oral口头报告(比例约1-2%)

论文标题:Reducing Belief Deviation in Reinforcement Learning for Active Reasoning of LLM Agents
项目代码:https://github.com/unimpor/T3
论文链接:https://openreview.net/forum?id=r8hzDA3pUY


引言:为什么 RL 训练出来的 agent 还是不会主动推理?

最近,越来越多工作开始关注LLM agent的多轮推理能力与各类agentic application。和传统的单轮问答不同,这类任务最大的挑战在于:agent往往无法在一开始就获得完成任务所需的全部信息,而必须在与外部环境的连续交互中,逐步收集线索、更新判断,并推进任务完成。

这类能力可以概括为active reasoning:agent在信息不完备的情况下,能够主动采取有助于减少不确定性、推进决策的动作。具体来说,通常包括:

  • 当前可见信息是不完整的;
  • agent需要主动采取行动,例如提问、调用工具、检索信息、执行操作等;
  • 外部环境会根据这些动作返回新的反馈或观测;
  • agent必须结合历史交互,持续更新对当前任务状态的理解,并据此决定下一步行动。

从直觉上看,强化学习似乎是训练这类 agent 的自然选择:outcome-based reward应该可以指导agent逐步学会采取更有信息价值的行动,并形成更高效的探索与决策策略。然而在实际系统中,这一过程远没有如此理想化。

无论是在computer-using agent,coding agent,还是通用对话 agent 的长程交互中,人们都反复观察到类似现象:随着交互的持续进行,agent的推理质量往往不升反降。

例如,在一些实际使用体验中,agent可能会围绕某个局部错误假设展开多轮无效行动:在computer-using agent 场景中,这可能表现为对界面状态、目标位置或下一步操作判断出现偏差,进而在网页或桌面环境中反复执行无效操作;在coding agent中,agent有时会在一次错误修改后持续沿着错误调试路径迭代;在长对话场景中,agent也可能过早形成某种判断,并在后续交互中对新反馈整合不足,导致对问题的理解逐渐偏离。

随着交互轮次增加,这类低信息量或无关行动往往不断累积,使trajectory出现越来越长的“无效尾部”。更进一步,这种现象不仅影响单次任务完成质量,还会在强化学习训练中表现为 reward 波动加剧、策略更新不稳定,甚至在后期出现性能的崩坏。

这篇论文关注的核心问题可以概括为:

为什么 LLM agent 在多轮主动推理中容易逐步偏离正确判断,并在后续交互中难以自行纠正?强化学习为什么没有自动修复这一过程?

作者的核心观点是:关键在于, agent在交互过程中对潜在任务状态形成的内部判断会持续发生偏移,并对后续决策产生连锁影响。论文将这一现象形式化为 belief deviation,并进一步分析其如何通过影响 trajectory 结构,系统性干扰强化学习中的 credit assignment。


从 belief tracking 视角形式化主动推理

在这篇工作里,作者将active reasoning建模为一个POMDP (Partially Observable Markov Decision Process)。其中的关键是:

Agent必须在部分可观测的环境中,维护对潜在真实任务状态的belief

理想情况下,一个oracle agent可以基于历史观测做出Bayesian的belief update;但真实LLM agent并不能显式维护这样的posterior,它只能依靠自己的内部推理去近似belief tracking过程。

这就带来一个根本问题:LLM的belief update 往往是不精确的,而且这种误差会随着偏离加剧而不断放大。

作者首先用一个truth-anchored potential来度量 agentic task的完成进度:

​Ψ(b)=−log⁡b(s^⋆)

其中​s^⋆代表着agent不可见的真实潜在任务状态。直观来说,​b(s^⋆)越小,说明agent越不相信真相,​Ψ(b) 就越大;而当模型越来越接近真实状态时,​Ψ(b) 才会下降。

围绕这个量,论文定义了belief update discrepancy,衡量LLM的更新规则相对于 Bayesian update的误差,并进一步提出一个关键假设(原文Assumption 1。 作者对这一理论假设进行了实验验证:见原文Figure2a/b&Appendix C):

当belief偏差足够大时,LLM 的更新误差会至少线性增长。

这意味着,一旦agent已经理解偏了,后续每一步更新都有可能让它偏得更厉害,而不是自己纠正回来。


Belief Trap Region (BTR):Agentic任务进展为何停滞?

基于上述形式化,作者提出了一个关键概念:Belief Trap Region(BTR,原文 Definition 1 )

BTR 可以直观理解为一个认知陷阱区域:

  • agent已经偏离了真实问题状态;
  • 后续动作几乎不再带来有效信息增益;
  • 推理进展停滞甚至恶化;
  • 轨迹尾部变得越来越长、越来越无信息量。

论文证明(原文Theorem 1),在若干温和的假设下,一旦 belief deviation 累积到一定程度,LLM agent 与环境的交互将不再带来有效任务进展,而是进入一种进展停滞、且难以自行逃离的状态。进入这里之后,agent虽然还在继续生成 token、继续和环境交互,但这些行为对真正解决问题已经帮助很小。

论文第一页给了一个很形象的例子:在一个 situation puzzle 任务中(即通过多轮提问逐步还原一个隐藏情境或事件逻辑的推理游戏,类似“海龟汤”游戏),agent不断围绕“是否存在双胞胎”这一假设做重复确认,而没有继续探索更关键的因果线索。作者指出,这类现象本质上反映了agent在错误belief上持续展开交互,即所谓的belief-trap dynamics。


更严重的问题:BTR 会污染 RL 的 credit assignment

如果belief trapping只影响单条轨迹的推理质量,那么它更多只是inference-time failure。然而本文进一步指出,其更关键的影响发生在训练阶段这些无信息的长尾轨迹,会反过来破坏强化学习本身。

论文考察了outcome-based RL中的advantage estimation 行为,特别是对GAE advantage 的影响。作者证明,当trajectory的后部进入BTR后,这一段低信息量、低任务进展的tail会污染credit assignment过程。现总结如下(详见原文Theorem 2,作者同时对这一理论进行了实验验证,见原文Figure 2c/d&Appendix C):

  • 在进入 BTR 之前的轨迹前段,往往包含一些本来具有价值的exploratory actions,这些动作可能确实在推动 agent 更接近真实状态;
  • 一旦轨迹在后续阶段进入BTR,尾部uninformative tail 的累积负向影响会污染前缀探索性动作的credit,即对其advantage形成negative drift;
  • 在此情况下,policy optimization 可能会将这些原本有益的前缀动作误判为低质量甚至“坏”的行为并加以惩罚;
  • 长期来看,这种机制会系统性地抑制探索,使得 policy逐渐保守,使agent无法提升主动推理能力。

至此,论文明确指出了belief deviation→BTR → advantage inversion→policy optimization失真这一条机制链路。


T3:截断 belief-trapped trajectory tail

既然问题集中出现在进入BTR之后的低信息量tail,一个自然的思路是:

当轨迹已经进入 belief-trapped regime 时,不再让其后续部分参与策略优化。

这正是T3的基本思想。T3全称为Truncating Belief-Trapped Trajectories,其做法并不复杂:

  • 在训练过程中监控trajectory是否出现持续性的 progress stall;
  • 一旦判断轨迹已经进入belief-trapped状态,即提前截断该 trajectory;
  • 仅保留前面仍具有信息价值的prefix用于后续的 policy optimization。

这一设计的目标并不是简单缩短rollout,而是更精确地控制用于策略更新的trajectory support,从而避免低信息量tail污染前缀动作的advantage estimation。

从这个角度看,T3可以理解为一种非常轻量的训练控制机制:它不要求修改PPO/GRPO/GSPO的核心更新公式,而是通过剔除进入belief-trapped regime之后的尾部片段,改善策略梯度所依赖的credit assignment质量。

从理论对象到可操作规则:如何判断轨迹是否进入 BTR

T3 真正的难点不在于“截断”本身,而在于如何在实际训练中检测和识别agent已经进入了BTR 。这主要涉及两个问题。

1. Belief state 本身不可直接观测

理论分析中的 ​b_t​Ψ(b_t) 以及进入BTR的精确时间都是隐变量,现实中的LLM并不会显式输出 belief distribution,因此无法直接基于理论量进行判断。为此,我们可以转而寻找一些更容易直接观测到的信号。实验结果表明,其实并不需要对BTR进行精确检测;相反,只要利用一些较为简单的proxy信号,对后续大部分uninformative tails 进行截断,就已经足以有效鼓励 agent 提升其active reasoning能力。

2. 不同任务的 hypothesis space 结构差异很大

有些任务具有离散、可枚举的candidate set;有些任务是开放式语义空间;还有些任务对应连续latent variable。因而,“任务进展”的具体可观测形式本身是task-dependent的。

针对这一问题,作者提出了一个统一但可实例化的 T3 condition (原文 Definition 2 )

若在最近一个窗口内,如果任务的假设空间未体现出足够的收缩,则判定该trajectory已进入belief-trapped regime,并触发截断。

这个定义本身是task-agnostic principle,但具体实现可以借助任务结构设计proxy。同时,为了增强T3 的在不同任务结构下的适用性,文章还探索了general belief-trap detector设计,具体可参见 Appendix E。


实验设置:5 个主动推理任务,覆盖离散、开放和连续假设空间

论文在4个数据集、5个主动推理任务上系统评测了T3,包括:

SituationPuzzles (SP):模仿了“海龟汤”游戏,agent 会先看到一个看似矛盾的 puzzle 描述,然后通过连续提出猜想询问 judge,最终给出对整个情境的完整解释;正文中,T3 将连续收到 judge “Unknown” 的回复视为低信息量信号并进行截断。

GuessNumbers (GN) 是交互式数字推理任务:目标是猜出一个未知的a位数字。每一轮agent直接给出一个猜测,环境返回基于agent当前猜测的结构化反馈。T3在该任务中直接监控当前guess是否已经违背历史反馈对应的候选集约束;一旦guess落到当前候选集之外,就立即截断。

CircuitDecoding (CD) :每个样本给出一个有限候选池,里面包含若干布尔电路结构,最终目标是识别K个隐藏的真实电路索引。agent 需要在多轮交互中从1...K中选择某个位置 并输入一个二进制配置,环境返回对应输出;T3 监控候选池大小是否继续收缩;若持续不缩小,就认为后续查询已难以继续减少不确定性并进行截断。

PreferenceEstimation (PE) :任务通过交互估计一个隐藏的用户偏好向量。每部电影带有若干 attribute score,用户对电影的偏好由隐藏向量与属性分数的加权和决定。每一轮 agent 都要同时输出当前的偏好向量估计,以及一个关于两部 reference movies 的 pairwise comparison 问题;judge只回答 “Yes / No / Equal”。正文主实验里,T3 通过 agent 显式输出的向量估计来近似 belief progress:若该估计与真实偏好的相似度连续下降,就触发截断。论文同时在 Appendix D.3 进一步给出一个不依赖 ground truth preference 的替代版本:只监控相邻轮次向量估计的变化幅度是否在滑动窗口内持续过小。

MovieRecommendation (MR) 建立在PE之上:前半段仍是preference elicitation交互,最后一轮不再继续提问,而是要求agent用自己当前估计的 preference为用户推荐新的电影。也就是说,MR评估的不只是交互期内的偏好恢复,还考察这种inferred user model 能否泛化到未见候选上。正文中,MR 与 PE 共用同一套T3 proxy。

可以看到,T3并不依赖统一的belief表示,而只需要定义一个简单的 progress proxy 来近似检测推理是否进入低信息量阶段,因此在实践中具有很强的可移植性与易集成特性。

主要RL训练基于Qwen2.5-7B-Instruct,并结合PPO、GRPO、GSPO三种常用优化算法。训练为 200 steps,属于一个相对克制但足够观察训练动态的规模设定。从环境形式来看:

GN、CD、PE、MR的反馈是rule-based

SP的反馈由Qwen2.5-14B-Instruct 扮演 user simulator。

这也使得论文涵盖了多种active reasoning setting,在不同结构的reasoning problems上测试T3的适用性:

  • 有限、可枚举 hypothesis space;
  • 开放式、难枚举 hypothesis space;
  • 连续 latent state setting。

代码已开源:

https://github.com/unimpor/T3

作者正在进一步探索 T3 在更具现实复杂度的 agentic benchmarks(如 tau2-bench)中的表现与适用性,并将在开源仓库中同步进展。


整体结果:T3 稳定提升性能,也显著减少无效 token

主结果非常清晰:

在几乎所有设置下,T3 都能稳定优于 vanilla RL。

除了最终指标外,更值得关注的是训练动态:

1. 训练更稳定

论文中的reward curve显示,vanilla RL往往存在明显震荡,甚至在部分收敛后再次塌陷;而加入T3后,训练曲线更平滑、更稳定,reward提升更接近单调增长。

2. Token 效率更高

T3 虽然会在早期截断一些trajectory,但正因为删掉了大量无信息tail,整体 token 消耗反而更低,token-efficiency更高。

3. 对不同 RL 算法都有效

PPO、GRPO、GSPO都能从T3中获益。这说明 T3 不是绑定某种特定optimization trick,而更像是一个上层训练原则。


OOD 泛化性与消融实验分析:T3 的收益并不依赖于某个特定设置

论文进一步进行了较完整的OOD泛化性与ablation分析。

OOD泛化性:更难的 hypothesis space 下仍然受益

在CD任务中,作者增加candidate pool size 和 hidden circuit size;在PE中,改变 reference movie 的数量与采样分布。结果显示,T3在所有这些OOD场景下都持续优于vanilla PPO。这说明T3确实在更困难的reasoning regimes中减轻了belief trapping。

Ablation Studies

作者系统比较了不同窗口长度​k、不同proxy规则,以及随机截断baseline。一个很有意思的发现是:

  • 适度随机截断有时也会带来有限的改进;
  • 但收益最稳定、效果最好的仍然是那些更准确捕获 belief-trap的truncation rule;
  • 过松的条件无法有效过滤低信息量tail,过严的条件又会过早删除仍然有价值的exploration prefix。

这些结果说明:

问题确实在无信息长尾上,并且T3 的有效性并不来自粗暴缩短轨迹,而是更有效地估计 “什么时候模型已经开始进入belief-trap”。


模型规模分析:较强模型通常获得更显著收益

论文还比较了不同规模和架构的模型,包括Qwen2.5 3B/7B/14B,以及LLaMA-3.1-8B与DeepSeek-R1-Distill-LLaMA-8B。

整体趋势是:

  • 3B模型收益有限;
  • 7B、14B模型收益更明显;
  • 一些reasoning能力更强的架构,往往能更充分利用T3。

针对这一现象,作者给出了一个贴合本文理论的假说。若底层模型的 belief tracking 能力本身过弱,则轨迹可能很快进入严重偏离状态,此时即便执行 truncation,也难以保留足够高质量的 informative prefix。相反,对于具有一定多轮推理基础的模型,T3 更能够发挥“保护前缀有效探索”的作用。


这项工作的意义与启示

从更高层面看,这篇工作传递了几个非常重要的 takeaways。

首先,它对多轮主动推理中的常见failure mode 给出了一个可分析的理论刻画。以往在交互过程中出现的冗余行动、围绕局部错误假设持续展开等现象,更多被视为经验观察;

本文将其系统化为belief deviationBelief Trap Region(BTR),使这些问题首次成为可以建模、分析并进行训练干预的对象。

其次,论文解释了一个长期困扰RL for LLM agents的现象,即outcome-based reward 并不会自动奖励“有信息量的探索”

Belief-trapped tails的存在会污染credit assignment,使其产生系统性偏差。这表明,active reasoning的困难不仅来自 sparse reward,本质上也来自belief dynamics 对策略学习过程的干扰。

更进一步,T3所提出的解决思路非常轻量:它不依赖额外reward model,也不需要重写PPO、GRPO 或 GSPO的优化机制,而是通过控制trajectory中用于策略更新的有效片段来改善训练信号质量。这种设计使其具有较强的可集成性,也为在更复杂agentic settings中应用提供了现实可行性。

从更长远的角度看,这项工作还指向了一个更一般的问题:

是否存在跨任务、较为通用的 belief-collapse detector,可用于大规模 long-horizon active reasoning agents 的训练控制?

论文Appendix E已经初步探索了若干可能路径,如基于语义冗余的检测等。这些方向都表明,控制belief dynamics 可能成为未来多轮 RL for LLM agents 中与 reward design、exploration strategy 同样关键的一条研究主线。

作者也正在进一步探索T3在更具现实复杂度的 agentic benchmarks(如 tau2-bench)中的表现与适用性,并将在开源仓库中持续更新相关进展。


欢迎查阅论文与代码以获取更多技术细节。