从 Depth Scaling 到 Width Scaling！WideSeek-R1：通过多智能体 RL 探索大模型的广度扩展（Width Scaling）

发布于 2026-03-21
102 次阅读

讲师：徐哲轩

中国科学技术大学少年班本科生

直播平台

YouTube

哔哩哔哩

视频号

相关资源

演示文稿 (PPT)

直播配套幻灯片

下载

DeepSeek-R1 的成功证明，深度扩展（Depth Scaling）在复杂逻辑推理中具有巨大潜力。但当任务从“深推理”转向“广信息”——如汇总全球头部科技公司多维财务数据——单一大模型往往受限于多轮检索带来的上下文干扰与串行效率瓶颈。

为此，我们提出“广度扩展”（Width Scaling）这一互补范式。基于 Lead-agent-Subagent 的分层多智能体架构，WideSeek-R1 通过多智能体强化学习实现端到端训练，具备灵活调度与高效并发能力。

论文：WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning
链接：https://arxiv.org/abs/2602.04634
代码：https://github.com/RLinf/RLinf/tree/main/examples/agent/wideseek_r1

实验结果显示，4B 参数的 WideSeek-R1 在⼴度搜索任务上的表现不仅看⻬ 671B 参数的 DeepSeek-R1 单智能体，更⼤幅超越了同参数规模的基线模型。

3月24日（周二）晚8点，青稞Talk 第115期，RLinf开发者、中国科学技术大学少年班本科生徐哲轩，将直播分享《WideSeek-R1：通过多智能体 RL 探索大模型的广度扩展》。

分享嘉宾

徐哲轩，中国科学技术大学少年班本科生，直博清华大学电子系，导师汪玉教授；RLinf开发者，研究方向：强化学习，多智能体。

主题提纲

从 Depth Scaling 到 Width Scaling！WideSeek-R1：通过多智能体 RL 探索大模型的广度扩展

1、从 DeepSeek-R1 看深度扩展的极限
2、“广度扩展”：新的 Scaling Law 范式
3、WideSeek-R1：基于MARL的分层多智能体架构
4、未AMA （Ask Me Anything）

直播时间

3月24日（周二）20:00 - 21:00