FIPO & Future-KL：突破大语言模型在复杂推理中的性能瓶颈

最近 Qwen Pilot 团队一直在研究 RL 如何解锁复杂推理能力。翻遍数据后，抓到了 3 个反直觉的发现：

1️⃣ RL 其实很“懒”

策略演化极稀疏在 >98% 的生成步骤里模型没变，RL 并没有重写基座，它更像是个教练，只在关键逻辑分叉口轻轻推一把。

论文：Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs
链接：https://arxiv.org/abs/2603.22446 (ICLR 2026)

2️⃣ 方向比幅度重要

别只盯着 KL 散度追踪对数概率差才能精准定位优化的“导航方向”。甚至不训练，只在推理时增强关键 Token 的信号，准确率就能原地起飞。

论文：On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation
链接：https://arxiv.org/abs/2603.22117 (ICLR 2026)

3️⃣ “哎呀 (Oops)”时刻多于“啊哈 (Aha)”时刻

在长序列推理中，模型常常已经推导出了正确答案，却由于冗余的自我反思而将其推翻。这种破坏性的 “Oops”时刻发生的频率比自我纠正的 “Aha”时刻高出 3 倍。

🔗 RLVR 的dark secret: qwen-pilot.notion.site/rlvr-secrets

罪魁祸首是因为当前主流的基于结果奖励（ORM）的 GRPO 训练通常将全局奖励均匀分配给所有 token，这种粗粒度分配导致模型无法区分关键逻辑节点与普通 token，进而陷入思维链“长度停滞”的上限。

为此，阿里通义实验室 Qwen Pilot 团队提出的核心算法 FIPO，在策略更新中引入了折扣的 Future-KL 散度，旨在突破大语言模型在复杂推理中的性能瓶颈。

它通过量化当前 token 对后续推理轨迹的因果影响，构建了一种密集优势（dense advantage）机制，实现了精确到 token 级别的奖励重加权。像手术刀一样，精准强化有效思考，掐掉带偏节奏的废话。

论文：FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization
链接：https://arxiv.org/abs/2603.19835
代码：https://github.com/qwenpilot/FIPO

实验表明，基于 Qwen2.5-32B，FIPO 成功将平均思维链（CoT）长度从约 4,000 扩展至 10,000 token 以上。路子走对了，模型确实写得越长、准头越高。

在 AIME 2024 测试中，其 Pass@1 准确率达到 58.0%，不仅远超 DAPO 基线 (50.0%)，也击败了同等规模的 DeepSeek-R1-Zero-Math-32B 和 o1-mini。这充分证明了细粒度奖励信号在激发大模型长程推理潜力中的决定性作用。

4月11日（周六）上午10点，#青稞Talk 第119期，阿里通义实验室 Qwen Pilot 团队实习生、达特茅斯学院博士生马驰宇，将直播分享《FIPO & Future-KL：突破大语言模型在复杂推理中的性能瓶颈》。

分享嘉宾

马驰宇，达特茅斯学院计算机科学在读博士，目前在阿里通义实验室 Qwen Pilot 团队实习。研究重心是大型语言模型的大规模后训练（Large-scale Post-training），专注于设计强化学习算法以激发和增强模型的复杂推理能力。

在早期探索了视觉模型可解释性与 LLM 评判框架后，目前的成果主要聚焦于 LLM 深度推理优化，包括提出 FIPO 算法打破传统基于 GRPO 方法的性能上限，并已在 NeurIPS、ICLR、ACL、EMNLP 等顶级会议发表多篇学术论文。

主题提纲

FIPO & Future-KL：突破大语言模型在复杂推理中的性能瓶颈

1、RL 训练的三个“反直觉”冷知识
- RL 其实很“懒”！大语言模型的“特修斯之船”
- “方向”胜过“幅度”：Δlog p 是真正的罗盘
- “Oops Moment” 时刻的警示：并非所有反思都是进化
2、FIPO：引入Future-KL，建立“Token 级别”的密集监督信号
3、性能验证 & AMA （Ask Me Anything）

直播时间

4月11日（周六）10:00 - 11:00