SCUBA: Salesforce Computer Use Benchmark¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=bkjKnO9s7T
代码: https://github.com/SalesforceAIResearch/SCUBA
领域: Agent / 计算机操作智能体 / Benchmark
关键词: 计算机操作智能体, CRM 工作流, 企业软件, 过程奖励, 演示增强
一句话总结¶
SCUBA 是一个建立在真实 Salesforce sandbox 环境上的计算机操作智能体(computer-use agent)评测基准,含 300 个来自真实用户访谈的 CRM 任务,配套可重置环境、里程碑式细粒度评估和人类演示,揭示了开源/闭源模型、浏览器型/桌面型智能体之间的巨大性能鸿沟(零样本下开源模型成功率 <5%,闭源最高 39%;加演示后可达 50% 并同时降本提速)。
研究背景与动机¶
领域现状:视觉语言模型(VLM)正被改造成能通过图形界面(GUI)自动化复杂工作流的自主智能体。这类智能体以屏幕截图为主要输入,输出点击、输入、代码块等可执行动作,已经在 WebArena、OSWorld 等基准上展现出不错的能力。
现有痛点:现有基准与真实企业软件场景存在系统性脱节。WebArena/OSWorld 评测的是网页导航和通用桌面应用,抓不到企业级平台的复杂度;WorkArena 系列虽然搭在 ServiceNow 平台上,但任务局限于客服场景;CRMArena 系列虽然也搭在 Salesforce 上,却主要面向工具调用(tool-use)智能体,且任务全是信息检索——不写、不改环境里的数据记录和配置。换句话说,没有一个基准能真正考验智能体在企业软件里"动手干活"的能力。
核心矛盾:真实企业部署里,"能不能完成任务"只是其中一维,延迟和成本同样是决定性因素;而现有评测既不覆盖读写型任务,又只给 0/1 成功信号,无法定位智能体到底卡在哪一步,也无法衡量它的效率代价。
本文目标:构建一个既真实、又可解释、还高效的企业级 CRM 工作流评测基准,覆盖 UI 导航、数据操作、工作流自动化、信息检索、故障排查五类企业关键能力,并把延迟、成本、里程碑进度都纳入度量。
切入角度:作者直接采用 Salesforce 官方提供的 sandbox developer org——它的 UI 与生产环境完全一致,免费档功能足以支撑全部任务,从而保证"真实性";同时用快照+差异回滚的方式解决企业环境难以重置的问题。
核心 idea:用真实访谈驱动的读写型任务 + 规则化里程碑评估器 + 人类演示,搭一个"既像真业务、又能细粒度诊断、还跑得快"的计算机操作智能体竞技场。
方法详解¶
整体框架¶
SCUBA 本质是"环境 + 任务 + 评估"三件套,外加一条把用户访谈变成可评测任务的构建流水线。环境是一个可并行、可按任务级重置的 Salesforce sandbox;任务是 300 个分布在管理员(admin,57%)、销售(sales,25%)、客服(service,18%)三类人物画像上的实例,每个任务都配一份初始化脚本和一套规则化评估器;评估器不仅给二元成功分,还给里程碑过程分(process reward)和延迟/成本度量。任务本身由一条四阶段流水线产出:从访谈抽模板 → 填值生成查询 → 准备初始化与评估器 → 人工标注质检。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["真实用户访谈<br/>admin / sales / service"] --> B["环境与重置机制<br/>Salesforce sandbox<br/>快照+差异回滚"]
A --> C["四阶段任务构建<br/>模板→填值→初始化→标注"]
C --> D["多维评估 harness<br/>里程碑过程分+延迟/成本"]
B --> D
D --> E["人类演示增强<br/>零样本 vs 演示增强对比"]
E --> F["智能体诊断<br/>规划/grounding 失败定位"]
关键设计¶
1. 环境与重置机制:用快照+差异回滚把企业 sandbox 变成可大规模评测的环境
真实性要求逼着作者放弃合成网站、改用 Salesforce sandbox developer org,但这带来一个棘手问题:像 WebArena/OSWorld 那样靠重启 Docker 容器来重置环境的办法在这里行不通——把一个 Salesforce org 重置回初始状态等价于重新创建一个 org,代价高到无法支撑大规模评测。作者的解法是给 org 的初始状态拍快照(下载一组配置文件),智能体跑完一轮后,把修改后的状态与初始状态做差异比对,只回滚被改动的那部分配置文件。由于每个任务预期会改动哪些配置是已知的,所以重置可以做到任务级精度,而不必整体重建。配合可并行的基础设施(按需起多个 headless 浏览器会话或多个 Docker 桌面容器),大量智能体可以被分配到各自专属环境里异步评测,全量评估能在 90 分钟内跑完。环境同时支持截图、可访问性树(accessibility tree)、扁平化 DOM 字符串三种观测,以及 Playwright 和 PyAutoGUI 的全部原子动作。
2. 四阶段任务构建:让访谈里的真实工作流变成可复现、可评测、难度可控的任务
任务不是凭空编的,而是从对真实 Salesforce 用户(方案工程师、org 管理员、销售代表、客户经理等)的访谈里提炼出来,再经四阶段流水线落地。阶段一(模板创建):每个工作流抽象成一个带占位符的任务模板(如"为 {object name} 对象配置组织级默认可见性……"),每个模板挂一篇 Trailhead 知识文章,并按 UI 操作复杂度和所需独特能力打上 easy/medium/hard 难度标签。阶段二(查询生成):每个模板填入不同取值生成 5 条查询,刻意让同模板的查询在难度上有差异(比如一条需要额外滚动或按字母检索定位目标,另一条需要记住更多已取消勾选的复选框),再用 GPT-5 改写以贴近真实人类措辞、增加语言多样性,最后两位作者人工校验。阶段三(初始化与评估):多数任务有前置条件(合成上传依赖数据、开启 org 设置授予权限等),作者用 Salesforce 的 Metadata API、Tooling API 为每个查询手工编写评估方法。阶段四(人工标注):所有实例送内部标注团队,既做质量控制(确保人类能完成、评估器结果与人类预期一致),又顺带产出可用于提升智能体表现的标注轨迹。最终得到 300 个实例(60 个模板)。
3. 多维评估 harness:用里程碑过程分把"失败"拆成"哪一步失败"
企业场景下只给 0/1 成功分远远不够——一个任务可能完成了 80% 却仍判 0 分,看不出问题在哪。SCUBA 的每个任务都配一个规则化评估器,除了二元成功分外,还给出里程碑分(milestone score,即过程奖励 process reward):把任务拆成若干带权重的里程碑(rubric),逐项判定是否达成。例如一个"建队列并加成员"的任务拆成"建出正确名称的队列(权重 0.3)/ 队列绑定正确对象类型(0.2)/ 发出邮件通知(0.25)/ 加入指定成员(0.25)"四个里程碑,若智能体完成前三项但漏了成员,则里程碑分为 0.75 且明确指出失败原因。这套机制让评估器不仅判成败,还能定位智能体具体卡在任务的哪个环节。此外评估器还同步给出延迟(time)、步数(steps)、token 消耗、成本(cost)等效率度量,呼应了"企业部署里延迟和成本同样决定性"的诉求。
4. 人类演示增强:把 Trailhead 式教程当"岗前培训"喂给智能体
作者观察到智能体在企业平台上失败,很大程度源于缺乏对 Salesforce UI 设计和功能的领域知识——就像真人也需要培训才会用。于是 SCUBA 随基准附带知识文章和人类演示轨迹,构造出演示增强(demonstration-augmented)设置:把任务查询与同类/同一任务的人类演示拼在一起喂给智能体,与只给查询的零样本(zero-shot)设置对照。这套演示对多数智能体能同时提升成功率、降低耗时/步数/token/成本,是论文最重要的实证发现之一;但也存在例外(如 UI-TARS-1.5-7B、OpenCUA-7B 无法有效利用演示,成功率涨了但其他指标也涨)。
实验关键数据¶
测试覆盖两类智能体共 9~11 个:浏览器型(Browser-Use) 用 SOM(Set-of-Mark,给截图上交互元素打数字框)+ DOM 文本作观测、19 个动作,backbone 为 GPT-5/o3/Claude-4-sonnet/Gemini-2.5-pro;桌面型(Computer-Use) 仅用整屏截图、15 个动作,含 UI-TARS-1.5-7B、OpenCUA-7B、GUI-Owl-7B、OpenAI-CUA、Claude-4-sonnet(computer)、Agent-S2.5、MobileAgentV3。最大步数 50、单任务最长 90 分钟、分辨率 1920×1080、温度 1.0。
主实验(零样本设置)¶
| 智能体 | 类型 | 里程碑分 ↑ | 成功率 ↑ | 时间(min) ↓ | 成本($) ↓ |
|---|---|---|---|---|---|
| GPT-5 | Browser-Use | 0.73 | 51.33% | 19.31 | 0.55 |
| o3 | Browser-Use | 0.65 | 45.67% | 21.37 | 0.56 |
| Agent-S2.5 (w/GPT-5) | 桌面型框架 | 0.58 | 39.00% | 25.13 | 1.17 |
| Claude-4-sonnet | Browser-Use | 0.56 | 34.67% | 11.25 | 1.16 |
| Gemini-2.5-Pro | Browser-Use | 0.47 | 31.00% | 7.27 | 0.24 |
| Claude-4-sonnet(computer) | Computer-Use | 0.48 | 27.00% | 8.02 | 1.44 |
| OpenAI-CUA | Computer-Use | 0.29 | 16.00% | 5.80 | 0.59 |
| MobileAgentV3 | Computer-Use | 0.11 | 3.10% | 21.47 | 1.17 |
| UI-TARS-1.5-7B | Computer-Use | 0.10 | 2.67% | 6.14 | - |
| GUI-Owl-7B | Computer-Use | 0.05 | 1.00% | 12.96 | - |
| OpenCUA-7B | Computer-Use | 0.05 | 0.67% | 20.48 | - |
可以看到:在 OSWorld 上表现不错的开源桌面型智能体(UI-TARS、OpenCUA、GUI-Owl)在 SCUBA 上成功率几乎归零(<5%),而闭源 backbone 的方法最高能到 39%(Agent-S2.5)甚至 51%(浏览器型 GPT-5)。
演示增强 vs 零样本(成功率对比)¶
| 智能体 | 零样本成功率 | 演示增强成功率 | 时间变化 |
|---|---|---|---|
| GPT-5 (BU) | 51.33% | 53.85% | 19.31 → 17.76 |
| o3 (BU) | 45.67% | 50.00% | 21.37 → 17.05 |
| Gemini-2.5-Pro (BU) | 31.00% | 46.15% | 7.27 → 10.02 |
| Claude-4-sonnet(computer) | 27.00% | 47.69% | 8.02 → 7.33 |
| OpenAI-CUA | 16.00% | 28.85% | 5.80 → 5.29 |
| UI-TARS-1.5-7B | 2.67% | 9.16% | 6.14 → 6.52 |
摘要中"成功率可提升到 50%、同时降本 16%/提速 13%"即来自此设置:演示几乎全面提升成功率并普遍降低耗时与成本。
关键发现¶
- 观测/动作空间设计 > 专用训练:浏览器型智能体(SOM+DOM)凭借更丰富的观测、更高效的动作空间,加上 foundation VLM 更强的规划能力,整体超过专门训练的桌面型智能体——但代价是浏览器型需要对 Salesforce 平台做大量 DOM parser 定制(原生 parser 会漏检元素,导致许多任务直接不可行)。
- 泛化是桌面型的硬伤:从 OSWorld 迁到 SCUBA(无演示)时,桌面型智能体成功率断崖式下跌——OpenCUA-7B 跌 97.6%、GUI-Owl-7B 跌 96.9%、UI-TARS 跌 90.1%、Agent-S2.5 跌 27.8%。失败主因是规划(planning)和 grounding(坐标定位):规划问题可部分靠演示缓解(这也是成功率提升的主要来源),但 grounding 问题(预测错交互元素坐标)依然顽固,作者建议用多次预测+多数投票来改善。
- 没有免费午餐:Gemini-2.5-pro(演示增强)在成功率、延迟、成本三者间取得最佳平衡;闭源/开源模型之间存在实质性鸿沟。
亮点与洞察¶
- 任务级差异回滚是真正落地企业 sandbox 评测的关键工程巧思:不靠重建环境、而是"快照→比对→只回滚改动项",把不可承受的重置成本压到可大规模并行的程度,这个思路可迁移到任何"重置代价高、但改动范围可知"的有状态环境评测。
- 里程碑过程分把黑盒成败变成可诊断的进度条,让基准从"打分"升级为"体检"——能告诉你智能体在 31 步、跨 8 个页面的长任务里到底哪一环掉链子,这对企业部署的可信度评估极有价值。
- 演示=岗前培训的类比很自然地把"非结构化教程/文档如何提升智能体"这个开放问题摆上台面:当结构化人类演示不总是可得时,如何更高效利用 Trailhead 这类教程是后续方向。
局限与展望¶
- 评估器只查终态、不查过程安全:和 OSWorld 一样只比对环境最终状态是否匹配,无法检测智能体是否"偷偷"修改/删除了任务无关的数据。理想做法是比对运行前后完整环境状态,但 Salesforce 状态文件巨大、下载会耗尽每日 API 配额,不可行;作者只能靠标注员抽查+任务级特定检查打补丁,承认这既不可扩展也不全面。
- 只覆盖企业工作流的子集:真实企业流程常跨多平台(如 HubSpot 找线索 → LinkedIn Sales Navigator 确认决策人 → Salesforce 管理线索),即便只在 Salesforce 内部,线索评分、AI 洞察等任务也因属付费功能或无免费 sandbox 而被排除。
- 自己的观察:300 实例来自 60 个模板(每模板 5 条查询),同模板查询共享结构,模板级多样性其实有限;且评估高度依赖手工编写的规则评估器,扩展到新任务/新平台的人力成本不低。
相关工作与启发¶
- vs WebArena / OSWorld:它们评测通用网页导航和桌面应用,靠重启容器重置;SCUBA 聚焦企业级 CRM、用快照差异回滚做任务级重置,且任务是读写型而非纯导航。
- vs WorkArena 系列:同为生产级 sandbox(ServiceNow),但 WorkArena 任务局限客服场景;SCUBA 覆盖 admin/sales/service 三类画像,且含 60 个模板的读写任务。
- vs CRMArena 系列:同搭 Salesforce 平台,但 CRMArena 面向工具调用智能体、任务全是信息检索(不写不改数据);SCUBA 面向计算机操作智能体、任务真正写入/修改环境,并提供过程奖励和人工标注,是表 1 里唯一同时满足"读写任务+过程奖励+人工标注+超出客服场景"四项的基准。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个面向 Salesforce 读写型 CRM 工作流的计算机操作智能体基准,任务级差异回滚和里程碑评估是实打实的工程创新。
- 实验充分度: ⭐⭐⭐⭐⭐ 9~11 个智能体 × 两种设置全面对比,含 OSWorld→SCUBA 泛化掉点、成本/延迟权衡等多维分析。
- 写作质量: ⭐⭐⭐⭐ 动机清晰、表 1 定位精准,工程细节(重置/并行/评估)交代充分。
- 价值: ⭐⭐⭐⭐⭐ 直指企业软件自动化落地的真实痛点,可解释评估与演示增强对工业界很有参考价值。