BOAD:引入多臂老虎机,自动化搜索层级结构的多 Agent 架构设计

  • 发布于 2026-01-11
  • 7 次阅读

直播平台

视频号

相关资源

演示文稿 (PPT)

直播配套幻灯片

暂未提供

幻灯片讨论大型语言模型在处理软件工程任务时遭遇泛化瓶颈,这是由长时序决策和分布外挑战导致的。大型语言模型(LLM)展现出强大的推理与编程能力,但在真实世界的软件工程(SWE)任务上仍难以泛化。这类问题往往涉及长时序决策,并且具有明显的 Out of Distribution问题。

图解展示单一智能体架构的内在局限性,它必须处理大量无关上下文和虚假关联,从而限制了泛化能力。现有系统通常依赖单一智能体处理 SWE 任务。它需要在一条推理链中同时进行需求理解、浏览大型代码库以及实现修复。这种设计会让模型保留大量无关上下文,容易引入虚假关联,从而限制泛化能力。

幻灯片提出解决复杂问题的方法是模仿人类工程师团队,建立由一个编排器和多个各司其职的子智能体组成的层次化团队。受人类工程师拆解复杂任务方式的启发,我们提出将 SWE 智能体组织为一个“编排器/调度器”,协调多个具备不同能力的子智能体,分别完成定位、修改与验证等子任务。

幻灯片提出自动发现最优智能体层级结构的关键挑战:组合爆炸和贡献归因。

但是关键挑战在于怎么自动发现有效的层级结构:当子智能体越多,结构搜索空间呈组合爆炸,且难以对各子智能体进行可靠的贡献归因。

为此,我们将层级设计建模为多臂老虎机(MAB):每个“臂”代表一种候选子智能体,回报衡量其在团队协作中的边际贡献。这篇工作中我们提出 BOAD(Bandit Optimization for Agent Design),在有限评测预算下高效搜索多智能体结构。

BOAD 工作流图展示了四个循环步骤:定义候选池、MAB 算法选择、SWE 任务评测以及反馈更新和迭代,旨在高效搜索最优团队。

在 SWE-bench-Verified 上,BOAD 优于单智能体与人工设计的多智能体系统;在训练分布外的 SWE-bench-Live 上,我们的 36B 系统排名第二,超过 GPT-4 与 Claude 等更大模型。结果表明,自动发现的层级多智能体显著提升了长时序 SWE 任务的泛化能力。

image-GbFz.png

1月17日(周六)上午10点,青稞社区和减论平台将联合组织青稞Talk 第104期,麻省理工学院(MIT)本科生ris Xu,将直播分享《BOAD:引入多臂老虎机,自动化搜索层级结构的多 Agent 架构设计》。

论文:BOAD: Discovering Hierarchical Software Engineering Agents via Bandit Optimization
链接:https://www.arxiv.org/pdf/2512.23631
代码:https://github.com/iamxjy/BOAD-SWE-Agent

分享嘉宾

ris Xu 是麻省理工学院(MIT)本科生,主修人工智能与数学。研究兴趣包括强化学习、大型语言模型以及基于智能体(agent-based)的系统。她曾在 IBM Research(IBM 研究院)开展研究,目前在麻省理工学院计算机科学与人工智能实验室(CSAIL)从事研究工作。

主题提纲

BOAD:引入多臂老虎机,自动化搜索层级结构的多 Agent 架构设计

1、大语言模型在软件工程(SWE)任务中的瓶颈
2、BOAD:将 Agent 设计建模为“多臂老虎机”
3、在长时序 SWE 任务上的泛化能力
4、AMA (Ask Me Anything)环节

直播时间

1月17日(周六)10:00 - 11:00