1. 首页
  2. 青稞Talk
  3. BOAD:引入多臂老虎机,自动化搜索层级结构的多 Agent 架构设计

BOAD:引入多臂老虎机,自动化搜索层级结构的多 Agent 架构设计

  • 发布于 2026-02-24
  • 59 次阅读

直播平台

YouTube

哔哩哔哩

视频号

相关资源

演示文稿 (PPT)

直播配套幻灯片

暂未提供

unnamed (1).webp

大型语言模型(LLM)展现出强大的推理与编程能力,但在真实世界的软件工程(SWE)任务上仍难以泛化。这类问题往往涉及长时序决策,并且具有明显的 Out of Distribution问题。

unnamed (2).webp

现有系统通常依赖单一智能体处理 SWE 任务。它需要在一条推理链中同时进行需求理解、浏览大型代码库以及实现修复。这种设计会让模型保留大量无关上下文,容易引入虚假关联,从而限制泛化能力。

unnamed (5).webp

受人类工程师拆解复杂任务方式的启发,我们提出将 SWE 智能体组织为一个“编排器/调度器”,协调多个具备不同能力的子智能体,分别完成定位、修改与验证等子任务。

但是关键挑战在于怎么自动发现有效的层级结构:当子智能体越多,结构搜索空间呈组合爆炸,且难以对各子智能体进行可靠的贡献归因。

为此,我们将层级设计建模为多臂老虎机(MAB):每个“臂”代表一种候选子智能体,回报衡量其在团队协作中的边际贡献。这篇工作中我们提出 BOAD(Bandit Optimization for Agent Design),在有限评测预算下高效搜索多智能体结构。

论文:BOAD: Discovering Hierarchical Software Engineering Agents via Bandit Optimization
链接:https://www.arxiv.org/pdf/2512.23631
代码:https://github.com/iamxjy/BOAD-SWE-Agent

在 SWE-bench-Verified 上,BOAD 优于单智能体与人工设计的多智能体系统;

在训练分布外的 SWE-bench-Live 上,我们的 36B 系统排名第二,超过 GPT-4 与 Claude 等更大模型。

结果表明,自动发现的层级多智能体显著提升了长时序 SWE 任务的泛化能力。

2月28日(周六)上午10点,青稞社区和减论平台将联合组织青稞Talk 第108期,麻省理工学院(MIT)本科生ris Xu,将直播分享《BOAD:引入多臂老虎机,自动化搜索层级结构的多 Agent 架构设计》。

Canvas – 912.webp

分享嘉宾

ris Xu 是麻省理工学院(MIT)本科生,主修人工智能与数学。研究兴趣包括强化学习、大型语言模型以及基于智能体(agent-based)的系统。她曾在 IBM Research(IBM 研究院)开展研究,目前在麻省理工学院计算机科学与人工智能实验室(CSAIL)从事研究工作。

主题提纲

BOAD:引入多臂老虎机,自动化搜索层级结构的多 Agent 架构设计

1、大语言模型在软件工程(SWE)任务中的瓶颈
2、BOAD:将 Agent 设计建模为“多臂老虎机”
3、在长时序 SWE 任务上的泛化能力
4、AMA (Ask Me Anything)环节

直播时间

2月28日(周六)10:00 - 11:00

如何观看

Talk 将在青稞社区【视频号:青稞AI、Bilibili:青稞AI】上进行直播,欢迎预约!

Bilibili 直播间:
https://live.bilibili.com/32145701