1. 首页
  2. 精选文章
  3. 上海 AI Lab 最新开源 AgentDoG 1.5:面向完整执行轨迹的轻量可扩展 Agent 安全框架

上海 AI Lab 最新开源 AgentDoG 1.5:面向完整执行轨迹的轻量可扩展 Agent 安全框架

  • 发布于 2026-06-05
  • ·
  • 0 次阅读
  • ·
  • ·
1.Technical Report: https://arxiv.org/abs/2605.29801
2.GitHub: https://github.com/AI45Lab/AgentDoG
3.Project Page: https://ai45lab.github.io/AgentDoG/v1_5/
4.Hugging Face: https://huggingface.co/collections/AI45Research/agentdog15

AgentDoG 1.5 发布:以 ATBench Engine 打通 Agent 安全评测、训练与部署

AI Agent正在从“会回答”走向“会行动”。它们会读写文件、调用工具、运行命令、连接MCP server、访问外部服务,并在多轮交互中根据环境反馈持续决策。

安全风险也因此不再只存在于用户输入或最终回复中,而可能出现在工具描述、环境返回、仓库文件、依赖包、历史状态,甚至某一次中间工具调用里。

这也是AgentDoG 1.5试图解决的问题:当Agent的风险发生在完整执行轨迹中,安全系统就不能只审查最后一句话。它需要理解 Agent 在过程中看到了什么、调用了什么、依据什么做出决策,以及这些中间行为是否已经造成了安全后果。

围绕这个目标,AgentDoG 1.5将 ATBench 扩展为面向多类 Agent 环境的评测 family,并进一步通过 taxonomy-guided DataEngine 构造高质量训练数据,形成一套可以用于评测、训练和部署的轨迹级安全框架。

一、问题起点:为什么现有护栏不够

Agentic AI 系统和传统单轮应用最大的区别在于,它们会在较长的交互链条里规划、调用工具、读取环境反馈,并产生用户难以逐步检查的中间决策。

一次不安全行为未必体现在最终回复中,它可能已经发生在错误的工具调用、过度授权的文件操作、被污染的环境信息采信,或延迟传播的失败链条里。

对用户来说,这类问题还会带来额外成本:需要监控 Agent 的行为、纠正错误、恢复被误改的状态,甚至追查到底是哪一步出了问题。

现有安全方案在这里遇到一个明显的 trade-off。闭源 frontier model 通常具备更强的推理和分析能力,可以处理长轨迹并给出较好的诊断,但成本高、延迟大,很难作为大规模或实时部署中的轻量监控器。开源通用模型成本更低,却往往缺乏对多步规划、工具调用、环境反馈和延迟失败传播的稳定判断能力。

现有 guard model 则大多围绕 prompt 或 response 级安全分类设计,输出通常偏粗粒度,很难定位风险来自哪里、Agent 如何失败,以及这种失败可能造成什么现实后果。

因此,AgentDoG 1.5 的切入点不是简单提出“再加一个护栏”,而是把安全判断对象明确为完整 agent trajectory,并让模型同时完成二分类判断和细粒度诊断。所谓 Engine,在这里不是一个口号,而是一套数据和评测管线:它需要系统覆盖不同 Agent 环境中的风险,生成带工具调用和环境反馈的轨迹,并把可验证的轨迹证据转化为训练与部署都能使用的监督信号。

二、ATBench Family:统一的轨迹级评测接口

AgentDoG 1.5首先将评测单位从单次回答推进到完整执行轨迹。在 ATBench Family中,每条样本都包含用户请求、Agent 响应、工具调用和环境反馈,模型需要判断整条轨迹是safe还是unsafe;如果轨迹不安全,还要进一步给出Risk Source、Failure Mode和Real-world Harm 三个维度的诊断。

这样的设计避免了只看最终回复带来的盲区,也让安全评测从“有没有问题”进一步走向“问题从哪里来、怎么发生、会造成什么后果”。

最新 ATBench 包含 1,000 条经过审计的轨迹,其中 503 条安全、497 条不安全;覆盖 2,084 个可用工具、1,954 个实际调用工具,平均每条轨迹包含 9.01 轮交互和约 3.95k tokens。

在此基础上,AgentDoG 1.5 进一步扩展出 ATBench-Claw 和 ATBench-Codex:前者面向 OpenClaw 风格的状态化、多工具、多技能 Agent,覆盖 session、approval、routing、plugin/skill trust 和 unattended automation 等风险;后者面向 Codex 风格的代码执行 Agent,覆盖仓库文件、shell 命令、依赖、MCP、patch、测试输出和运行时策略等证据。

这套 family 的价值在于,它让不同 Agent 环境共享同一个诊断接口。新的执行环境出现时,不需要重新定义一个完全孤立的安全任务,而是在稳定的三维结构上扩展或细化叶子类目。这样既能保留跨 benchmark 的可比性,也能让评测真正贴近 Codex、OpenClaw 这类新型系统中特有的执行风险。

三、ATBench DataEngine:从 taxonomy 到可训练轨迹

有了评测接口,还需要能持续生产高质量轨迹数据的管线。Agent 安全数据的难点在于,风险必须发生在过程中,而且标签必须能被轨迹证据支撑。简单收集最终回答,很难覆盖复杂工具链中的长尾风险;直接合成数据,又容易产生格式错误、语义不一致、标签缺乏证据的问题。

AgentDoG 1.5 因此构建了 taxonomy-guided DataEngine。它不是随机生成任务,而是先从三维安全分类法中采样一个风险组合,再围绕这个组合规划用户任务、工具集合、执行步骤和风险注入点。

随后,Trajectory synthesis 会把规划草图实例化为完整多轮交互,包含用户消息、Agent 响应、工具调用和环境反馈;同一个场景骨架既可以生成安全版本,也可以生成不安全版本。

最后,Automatic validation 通过规则检查和模型检查做双层质量控制,过滤工具调用格式错误、schema 不一致、步骤不连贯、标签无法从轨迹中得到支持的样本。

经过验证的数据池覆盖 5,973 个独立工具和 MCP server,包含 9 类风险来源、18 类失效模式、10 类真实世界危害,以及 1,620 个风险组合。

为了让模型学到从证据到结论的推理路径,AgentDoG 1.5 还引入 CoT rationale 增强;为了避免训练被低价值或噪声样本拖累,又通过数据净化方法筛选高信息量样本,最终用约 1k 条高质量 SFT 样本训练轻量诊断模型。

也就是说,DataEngine 的作用不只是“生成更多数据”,而是把 taxonomy、轨迹证据和训练信号连接起来。

四、Application 1:Safety Agentic SFT & RL

AgentDoG 1.5 的第一个应用,是把这套轨迹级数据和诊断能力接入 Agent 安全训练。在 SFT 阶段,团队使用 ATBench DataEngine 构造 agentic safety supervision data:先生成良性工具使用轨迹,再按照三维 taxonomy 向工具描述、用户请求、工具调用或工具返回中注入风险,并要求模型生成对应的安全处理轨迹。

这里的目标不是让模型简单拒绝一切,而是让它识别风险、拒绝或中和有害部分、避免危险工具调用,同时尽量保留用户任务中的良性目标。

原始数据包含 26,021 组轨迹对。经过 AgentDoG 1.5 诊断过滤后,保留约 21,939 条高质量 agentic safety 轨迹;为了避免模型学成过度保守的拒绝策略,团队又混入 50,000 条良性工具使用轨迹,形成约 1:2 的安全关键数据与良性工具数据混合。

以 Qwen3.5-4B 为基础模型,使用过滤后的安全 SFT 数据后,AgentHarm Harm Score 从 57.49% 降至 20.32%,Refusal Rate 从 28.41% 提升至 75.00%,AgentSafetyBench Safe Rate从34.37% 提升至 53.23%,BFCL 函数调用准确率也提升至 81.12%。

这些结果说明,轨迹级安全监督可以增强安全行为,同时不必牺牲基本工具调用能力。

在 RL 阶段,AgentDoG 1.5 进一步作为外部安全评估器提供 reward signal。团队构建轻量有限状态 Python 环境,用规则奖励衡量任务效用,用 AgentDoG 1.5 衡量安全行为,从而同时优化 utility 与 safety。

这套环境覆盖 323 个工具、16 个领域,并构造 clean task、environment injection attack、malicious query 三类训练场景;相比依赖真实软件环境,它更适合大规模 rollout,在高并发压力下峰值内存保持在 2.5GB 以下。

最终,SFT + RL 联合训练将 AgentHarm Harm Score 降至 18.04%,Refusal Rate 提升至 77.27%,AgentSafetyBench Safe Rate 提升至 59.32%,同时 BFCL 仍保持 81.25%。

五、Application 2:Online Agent Safety Guardrail

AgentDoG 1.5 的第二个应用,是把轨迹级诊断能力部署到线上 Agent 运行时。如果 Application 1 解决的是训练期安全对齐,那么 Application 2 解决的是部署期安全监控:当 Agent 已经在真实或接近真实的环境中运行时,如何在最终回复发出前,对完整执行轨迹进行一次安全审查。

这个问题不能只靠规则,因为运行时风险可能跨越多次工具调用、延迟观察和变化的上下文;规则检查在局部 checkpoint 上有效,但可能漏掉只有看完整轨迹才显现的失败。

AgentDoG 1.5 采用 pre-reply 作为主要介入点。Agent 仍然按原流程执行任务,系统在最终回复交付给用户前,收集用户输入、工具调用、工具返回、环境观察、可用中间推理和最终回复草稿,并把这些事件整理成轨迹级表示,交给 AgentDoG 1.5 判断是否安全。

如果轨迹安全,原回复正常发出;如果轨迹不安全,则拦截或替换最终回复,并记录诊断结果。选择 pre-reply 的工程原因也很直接:它不需要在每次工具调用后都审查,避免给长任务引入显著延迟,同时又比只看最终回复拥有更完整的上下文。

在 final-reply-preventable 评测中,AgentDoG 1.5 能降低最终交付层面的残余不安全率。ClawSafety 中,无护栏 ASR 为 56.25%,AgentDoG 1.5-4B 降至 18.75%;AgentHazard Prompt_Intel_Theft 中,无护栏 ASR 为 41.92%,AgentDoG 轨迹护栏降至 34.23%;CIK Core35 中,无护栏 ASR 为 94.29%,AgentDoG 轨迹护栏降至 68.57%。

这说明,训练和评测时使用的轨迹级表示,也可以迁移到运行时监控中,让评测、训练和部署共享同一套安全诊断接口。

六、小模型也能做强 Agent 安全判断

AgentDoG 1.5 的一个重要目标,是把轨迹级安全诊断能力压缩进轻量模型,而不是每次都依赖高成本 frontier model。实验显示,AgentDoG-Qwen3-4B 在 R-Judge 上达到 91.8% Accuracy 和 92.7% F1;在 ATBench 上达到 92.8% Accuracy 和 93.0% F1,显著优于多数通用 guard model。

更重要的是,它不只是输出 safe / unsafe,还能进行细粒度风险诊断:在 ATBench fine-grained 诊断任务中,AgentDoG-Qwen3-FG-4B 的 Risk Source Accuracy 为 82.0%,Failure Mode Accuracy 为 32.4%,Real-world Harm Accuracy 为 58.4%。

这些结果和前面的 DataEngine 设计是相互呼应的。显式的三维 taxonomy 监督、轨迹级证据、CoT rationale 和数据净化,使轻量模型能够学习“发现风险、定位原因、解释后果”的诊断能力。

对于真实部署来说,这一点很关键:安全监控不仅要准,还要足够便宜、足够快,才能进入大规模 Agent 系统。

七、总结:从轨迹评测到应用闭环

AgentDoG 1.5 的主线可以概括为一条闭环:ATBench Family 定义稳定的轨迹级评测接口,ATBench DataEngine 将 taxonomy 转化为可控的数据生成和净化管线,Application 1 把这些轨迹级信号用于 SFT 与 RL,Application 2 再把同一套诊断接口部署到线上 pre-reply guardrail。

这样,Agent 安全不再只是事后给输出打标签,而是贯穿评测、训练和部署的完整流程。

随着 Agent 进入更多代码执行、工作流自动化、多工具协作和长期状态管理场景,安全系统也必须从“看最终回答”升级为“看完整执行轨迹”。

AgentDoG 1.5 的价值正在这里:它把轨迹级风险诊断做成一个可扩展、可训练、可部署的框架,让 Agent 安全更接近真实系统的运行方式。

目录