大型语言模型(LLM)展现出强大的推理与编程能力,但在真实世界的软件工程(SWE)任务上仍难以泛化。这类问题往往涉及长时序决策,并且具有明显的 Out of Distribution问题。
现有系统通常依赖单一智能体处理 SWE 任务。它需要在一条推理链中同时进行需求理解、浏览大型代码库以及实现修复。这种设计会让模型保留大量无关上下文,容易引入虚假关联,从而限制泛化能力。
受人类工程师拆解复杂任务方式的启发,我们提出将 SWE 智能体组织为一个“编排器/调度器”,协调多个具备不同能力的子智能体,分别完成定位、修改与验证等子任务。
但是关键挑战在于怎么自动发现有效的层级结构:当子智能体越多,结构搜索空间呈组合爆炸,且难以对各子智能体进行可靠的贡献归因。
为此,我们将层级设计建模为多臂老虎机(MAB):每个“臂”代表一种候选子智能体,回报衡量其在团队协作中的边际贡献。这篇工作中我们提出 BOAD(Bandit Optimization for Agent Design),在有限评测预算下高效搜索多智能体结构。
在 SWE-bench-Verified 上,BOAD 优于单智能体与人工设计的多智能体系统;在训练分布外的 SWE-bench-Live 上,我们的 36B 系统排名第二,超过 GPT-4 与 Claude 等更大模型。结果表明,自动发现的层级多智能体显著提升了长时序 SWE 任务的泛化能力。

1月17日(周六)上午10点,青稞社区和减论平台将联合组织青稞Talk 第104期,麻省理工学院(MIT)本科生ris Xu,将直播分享《BOAD:引入多臂老虎机,自动化搜索层级结构的多 Agent 架构设计》。
论文:BOAD: Discovering Hierarchical Software Engineering Agents via Bandit Optimization
链接:https://www.arxiv.org/pdf/2512.23631
代码:https://github.com/iamxjy/BOAD-SWE-Agent
分享嘉宾
ris Xu 是麻省理工学院(MIT)本科生,主修人工智能与数学。研究兴趣包括强化学习、大型语言模型以及基于智能体(agent-based)的系统。她曾在 IBM Research(IBM 研究院)开展研究,目前在麻省理工学院计算机科学与人工智能实验室(CSAIL)从事研究工作。
主题提纲
BOAD:引入多臂老虎机,自动化搜索层级结构的多 Agent 架构设计
1、大语言模型在软件工程(SWE)任务中的瓶颈
2、BOAD:将 Agent 设计建模为“多臂老虎机”
3、在长时序 SWE 任务上的泛化能力
4、AMA (Ask Me Anything)环节
直播时间
1月17日(周六)10:00 - 11:00