来帮社区的同学“还愿”了!!!

OpenCUA 是港大联合月之暗面提出的一个全面的开源框架,旨在扩展CUA的数据和基础模型,使用户可以高效、低门槛开发自主操作电脑的Agent。
论文:OpenCUA: Open Foundations for Computer-Use Agents
链接:https://arxiv.org/abs/2508.09123
代码:https://github.com/xlang-ai/OpenCUA
具备视觉-语言能力的大模型已展现出一定的电脑操作能力,但当前最强系统多为闭源,社区在基建、数据与高性能开源模型方面仍存在缺口。计算机使用任务跨操作系统与多软件、决策链长、反馈即时,对感知—理解—规划—可验证执行提出更高要求。
为此,OpenCUA 提供构建 CUA 基础模型的一体化方法论与基础设施:

- 统一的数据采集/标注工具AgentNetTool;

- 覆盖三大 OS、200+ 应用的数据集AgentNet;

- 离线评测基准AgentNetBench;

- 当前领先的开源 OpenCUA models。

其中 OpenCUA-72B 在真实电脑环境基准OSWorld-Verified上取得 45 分,优于 Claude 4 Sonnet,验证了OpenCUA的有效性。

进一步分析实验表明,OpenCUA 具有数据与模型的扩展性(scaling)、跨领域迁移(domain transfer)能力,并显示增加测试时计算(scaling test-time)带来的显著潜力。
10月25日(周六)上午10点,青稞Talk 第81期,香港大学博士生王心远,将直播分享《OpenCUA:用于构建 Computer-Use Agent 的开源框架》。
分享嘉宾
王心远,香港大学 XLANG Lab 计算机科学博士生,师从余涛老师,硕士毕业于 UCSD。研究方向为 Agent 基础模型 与 计算机使用智能体(Computer-Use Agents)。
参与的主要工作包括:开源体系 OpenCUA(NeurIPS 2025 Spotlight),构建从数据、模型到评测的一体化框架;真实用户众包评测平台 Computer Agent Arena;Kimi-VL 模型的 computer-use 能力;以及 Jedi 桌面 grounding 模型与基准(NeurIPS 2025 Spotlight)。致力于让模型以语言在数字与真实环境中稳健完成复杂任务,并参与 NeurIPS、ICLR、AAAI 等会议审稿。
主题提纲
OpenCUA:用于构建 Computer-Use Agent 的开源框架
1、Computer-Use Agent 技术路径及挑战
2、扩展 CUA 数据和基础模型的开源框架:OpenCUA
- AgentNetTool:统一的数据采集/标注工具
- AgentNet:覆盖三大 OS、200+ 应用的数据集
- AgentNetBench:离线评测基准
- 开源 OpenCUA models
3、OpenCUA 的应用及未来研究探讨
直播时间
10月25日(周六)10:00 - 11:00
如何观看
Talk 将在青稞社区【视频号:青稞AI、Bilibili:青稞AI】上进行,欢迎预约!
Bilibili 直播间:https://live.bilibili.com/32145701
同时,嘉宾已经入驻青稞社区·知识星球,想要提问交流的朋友可以加入星球!
![]()