
DeepSeek-R1 的成功证明,深度扩展(Depth Scaling)在复杂逻辑推理中具有巨大潜力。但当任务从“深推理”转向“广信息”——如汇总全球头部科技公司多维财务数据——单一大模型往往受限于多轮检索带来的上下文干扰与串行效率瓶颈。

为此,我们提出“广度扩展”(Width Scaling)这一互补范式。基于 Lead-agent-Subagent 的分层多智能体架构,WideSeek-R1 通过多智能体强化学习实现端到端训练,具备灵活调度与高效并发能力。
论文:WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning
链接:https://arxiv.org/abs/2602.04634
代码:https://github.com/RLinf/RLinf/tree/main/examples/agent/wideseek_r1

实验结果显示,4B 参数的 WideSeek-R1 在⼴度搜索任务上的表现不仅看⻬ 671B 参数的 DeepSeek-R1 单智能体,更⼤幅超越了同参数规模的基线模型。
3月24日(周二)晚8点,青稞Talk 第115期,RLinf开发者、中国科学技术大学少年班本科生徐哲轩,将直播分享《WideSeek-R1:通过多智能体 RL 探索大模型的广度扩展》。
分享嘉宾
徐哲轩,中国科学技术大学少年班本科生,直博清华大学电子系,导师汪玉教授;RLinf开发者,研究方向:强化学习,多智能体。
主题提纲
从 Depth Scaling 到 Width Scaling!WideSeek-R1:通过多智能体 RL 探索大模型的广度扩展
1、从 DeepSeek-R1 看深度扩展的极限
2、“广度扩展”:新的 Scaling Law 范式
3、WideSeek-R1:基于MARL的分层多智能体架构
4、未AMA (Ask Me Anything)
直播时间
3月24日(周二)20:00 - 21:00