BOAD：引入多臂老虎机，自动化搜索层级结构的多 Agent 架构设计

幻灯片讨论大型语言模型在处理软件工程任务时遭遇泛化瓶颈，这是由长时序决策和分布外挑战导致的。大型语言模型（LLM）展现出强大的推理与编程能力，但在真实世界的软件工程（SWE）任务上仍难以泛化。这类问题往往涉及长时序决策，并且具有明显的 Out of Distribution问题。

图解展示单一智能体架构的内在局限性，它必须处理大量无关上下文和虚假关联，从而限制了泛化能力。现有系统通常依赖单一智能体处理 SWE 任务。它需要在一条推理链中同时进行需求理解、浏览大型代码库以及实现修复。这种设计会让模型保留大量无关上下文，容易引入虚假关联，从而限制泛化能力。

幻灯片提出解决复杂问题的方法是模仿人类工程师团队，建立由一个编排器和多个各司其职的子智能体组成的层次化团队。受人类工程师拆解复杂任务方式的启发，我们提出将 SWE 智能体组织为一个“编排器/调度器”，协调多个具备不同能力的子智能体，分别完成定位、修改与验证等子任务。

幻灯片提出自动发现最优智能体层级结构的关键挑战：组合爆炸和贡献归因。

但是关键挑战在于怎么自动发现有效的层级结构：当子智能体越多，结构搜索空间呈组合爆炸，且难以对各子智能体进行可靠的贡献归因。

为此，我们将层级设计建模为多臂老虎机（MAB）：每个“臂”代表一种候选子智能体，回报衡量其在团队协作中的边际贡献。这篇工作中我们提出 BOAD（Bandit Optimization for Agent Design），在有限评测预算下高效搜索多智能体结构。

BOAD 工作流图展示了四个循环步骤：定义候选池、MAB 算法选择、SWE 任务评测以及反馈更新和迭代，旨在高效搜索最优团队。

在 SWE-bench-Verified 上，BOAD 优于单智能体与人工设计的多智能体系统；在训练分布外的 SWE-bench-Live 上，我们的 36B 系统排名第二，超过 GPT-4 与 Claude 等更大模型。结果表明，自动发现的层级多智能体显著提升了长时序 SWE 任务的泛化能力。

1月17日（周六）上午10点，青稞社区和减论平台将联合组织青稞Talk 第104期，麻省理工学院（MIT）本科生ris Xu，将直播分享《BOAD：引入多臂老虎机，自动化搜索层级结构的多 Agent 架构设计》。

论文：BOAD: Discovering Hierarchical Software Engineering Agents via Bandit Optimization
链接：https://www.arxiv.org/pdf/2512.23631
代码：https://github.com/iamxjy/BOAD-SWE-Agent

分享嘉宾

ris Xu 是麻省理工学院（MIT）本科生，主修人工智能与数学。研究兴趣包括强化学习、大型语言模型以及基于智能体（agent-based）的系统。她曾在 IBM Research（IBM 研究院）开展研究，目前在麻省理工学院计算机科学与人工智能实验室（CSAIL）从事研究工作。

主题提纲

BOAD：引入多臂老虎机，自动化搜索层级结构的多 Agent 架构设计

1、大语言模型在软件工程（SWE）任务中的瓶颈
2、BOAD：将 Agent 设计建模为“多臂老虎机”
3、在长时序 SWE 任务上的泛化能力
4、AMA （Ask Me Anything）环节

直播时间

1月17日(周六)10:00 - 11:00